Ako aplikovať potrubia na množinu údajov v transformátoroch?

Ako Aplikovat Potrubia Na Mnozinu Udajov V Transformatoroch



Funkcia pipeline() je neoddeliteľnou súčasťou knižnice Transformer. Vyžaduje si to niekoľko vstupov, v ktorých môžeme definovať inferenčnú úlohu, modely, mechanizmus tokenizácie atď. Funkcia pipeline() sa používa hlavne na vykonávanie úloh NLP na jednom alebo viacerých textoch. Vykonáva predbežné spracovanie na vstupe a následné spracovanie na základe modelu, aby generoval ľudsky čitateľný výstup a presnú predpoveď s maximálnou presnosťou.

Tento článok sa zaoberá nasledujúcimi aspektmi:







Čo je knižnica množiny údajov Hugging Face?

Knižnica množín údajov Hugging Face je rozhranie API, ktoré obsahuje niekoľko verejných množín údajov a poskytuje jednoduchý spôsob ich sťahovania. Túto knižnicu je možné importovať a nainštalovať do aplikácie pomocou „ pip “príkaz. Pre praktickú ukážku stiahnutia a inštalácie dátových množín knižnice Hugging Face navštívte túto stránku Odkaz na Google Colab. Môžete si stiahnuť viacero súborov údajov z Hugging Face Dataset Hub.



Ďalšie informácie o fungovaní funkcie pipeline() nájdete v tomto článku „ Ako využiť funkciu Pipeline () v transformátoroch? “.



Ako aplikovať potrubia na množinu údajov v objímaní tváre?

Hugging Face poskytuje niekoľko rôznych verejných súborov údajov, ktoré možno jednoducho nainštalovať pomocou jednoriadkového kódu. V tomto článku uvidíme praktickú ukážku aplikácie potrubí na tieto množiny údajov. Existujú dva spôsoby, ako môžu byť potrubia implementované na množine údajov.





Metóda 1: Použitie iteračnej metódy

Funkciu pipeline() je možné iterovať aj cez množinu údajov a model. Na tento účel postupujte podľa krokov uvedených nižšie:

Krok 1: Nainštalujte knižnicu Transformer Library

Ak chcete nainštalovať knižnicu Transformer, zadajte nasledujúci príkaz:



!pip inštalovať transformátory

Krok 2: Import potrubí

Potrubie môžeme importovať z knižnice Transformer. Na tento účel zadajte nasledujúci príkaz:

z transformátorov import potrubia

Krok 3: Implementujte potrubie

Tu je funkcia pipeline() implementovaná na modeli „ gpt2 “. Modely si môžete stiahnuť z Hub modelu objímajúcej tváre:

def imp_pipeline():
pre x v rozsahu (1000):
výnos f'Implementačný súbor údajov{x}'


create_pipeline= pipeline(model='gpt2', device=0)
gen_char= 0
pre výstup v create_pipeline(imp_pipeline()):
gen_char += len(výstup[0]['generovaný_text'])

V tomto kóde je „ generovať_potrubie ” je premenná, ktorá obsahuje funkciu pipeline() s modelom “ gpt2 “. Keď sa zavolá pomocou „ imp_pipeline() “, automaticky rozpoznáva údaje, ktoré sa zvyšujú o rozsah určený na 1000:

Trénovať to bude nejaký čas trvať. Odkaz na Google Co je tiež daný.

Metóda 2: Použitie knižnice množín údajov

V tejto metóde predvedieme implementáciu potrubia pomocou knižnice „datasets“:

Krok 1: Nainštalujte transformátor

Ak chcete nainštalovať knižnicu Transformer, zadajte nasledujúci príkaz:

!pip inštalovať transformátory

Krok 2: Nainštalujte knižnicu množín údajov

Ako „ množiny údajov ” knižnica obsahuje všetky verejné množiny údajov, môžeme ju nainštalovať pomocou nasledujúceho príkazu. Inštaláciou „ množiny údajov ” knižnice, môžeme priamo importovať ľubovoľnú množinu údajov zadaním jej názvu:

!pip inštalačné množiny údajov

Krok 3: Pipeline množiny údajov

Ak chcete vytvoriť kanál na množine údajov, použite nasledujúci kód. KeyDataset je funkcia, ktorá zobrazuje iba tie hodnoty, ktoré používateľa zaujímajú:

z transformers.pipelines.pt_utils importujte súbor kľúčových údajov
z transformátorov import potrubia
z dátových množín importovať load_dataset
gen_pipeline = pipeline(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') pre výstup v gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Tlačí sa výstup teraz')
vytlačiť ('-----------------')
tlač (výstup)

Výstup vyššie uvedeného kódu je uvedený nižšie:

To je všetko z tohto návodu. Odkaz na Google Co je uvedený aj v tomto článku

Záver

Ak chcete použiť kanály na množinu údajov, môžeme buď iterovať množinu údajov pomocou funkcie pipeline() alebo použiť „ množiny údajov “knižnica. Hugging Face poskytuje svojim používateľom odkaz na úložisko GitHub pre súbory údajov aj modely, ktoré možno použiť na základe požiadaviek. Tento článok poskytuje komplexného sprievodcu aplikáciou potrubí na množinu údajov v Transformers.