Ako aplikovať potrubia na množinu údajov v transformátoroch?

Funkcia pipeline() je neoddeliteľnou súčasťou knižnice Transformer. Vyžaduje si to niekoľko vstupov, v ktorých môžeme definovať inferenčnú úlohu, modely, mechanizmus tokenizácie atď. Funkcia pipeline() sa používa hlavne na vykonávanie úloh NLP na jednom alebo viacerých textoch. Vykonáva predbežné spracovanie na vstupe a následné spracovanie na základe modelu, aby generoval ľudsky čitateľný výstup a presnú predpoveď s maximálnou presnosťou.

Tento článok sa zaoberá nasledujúcimi aspektmi:

Čo je knižnica množín údajov Hugging Face?
Ako aplikovať potrubia na množinu údajov v objímaní tváre?

Čo je knižnica množiny údajov Hugging Face?

Knižnica množín údajov Hugging Face je rozhranie API, ktoré obsahuje niekoľko verejných množín údajov a poskytuje jednoduchý spôsob ich sťahovania. Túto knižnicu je možné importovať a nainštalovať do aplikácie pomocou „ pip “príkaz. Pre praktickú ukážku stiahnutia a inštalácie dátových množín knižnice Hugging Face navštívte túto stránku Odkaz na Google Colab. Môžete si stiahnuť viacero súborov údajov z Hugging Face Dataset Hub.

Ďalšie informácie o fungovaní funkcie pipeline() nájdete v tomto článku „ Ako využiť funkciu Pipeline () v transformátoroch? “.

Ako aplikovať potrubia na množinu údajov v objímaní tváre?

Hugging Face poskytuje niekoľko rôznych verejných súborov údajov, ktoré možno jednoducho nainštalovať pomocou jednoriadkového kódu. V tomto článku uvidíme praktickú ukážku aplikácie potrubí na tieto množiny údajov. Existujú dva spôsoby, ako môžu byť potrubia implementované na množine údajov.

Metóda 1: Použitie iteračnej metódy
Metóda 2: Použitie knižnice množín údajov

Metóda 1: Použitie iteračnej metódy

Funkciu pipeline() je možné iterovať aj cez množinu údajov a model. Na tento účel postupujte podľa krokov uvedených nižšie:

Krok 1: Nainštalujte knižnicu Transformer Library

Ak chcete nainštalovať knižnicu Transformer, zadajte nasledujúci príkaz:

!pip inštalovať transformátory

Krok 2: Import potrubí

Potrubie môžeme importovať z knižnice Transformer. Na tento účel zadajte nasledujúci príkaz:

z transformátorov import potrubia

Krok 3: Implementujte potrubie

Tu je funkcia pipeline() implementovaná na modeli „ gpt2 “. Modely si môžete stiahnuť z Hub modelu objímajúcej tváre:

def imp_pipeline():
pre x v rozsahu (1000):
výnos f'Implementačný súbor údajov{x}'

create_pipeline= pipeline(model='gpt2', device=0)
gen_char= 0
pre výstup v create_pipeline(imp_pipeline()):
gen_char += len(výstup[0]['generovaný_text'])

V tomto kóde je „ generovať_potrubie ” je premenná, ktorá obsahuje funkciu pipeline() s modelom “ gpt2 “. Keď sa zavolá pomocou „ imp_pipeline() “, automaticky rozpoznáva údaje, ktoré sa zvyšujú o rozsah určený na 1000:

Trénovať to bude nejaký čas trvať. Odkaz na Google Co je tiež daný.

Metóda 2: Použitie knižnice množín údajov

V tejto metóde predvedieme implementáciu potrubia pomocou knižnice „datasets“:

Krok 1: Nainštalujte transformátor

Ak chcete nainštalovať knižnicu Transformer, zadajte nasledujúci príkaz:

!pip inštalovať transformátory

Krok 2: Nainštalujte knižnicu množín údajov

Ako „ množiny údajov ” knižnica obsahuje všetky verejné množiny údajov, môžeme ju nainštalovať pomocou nasledujúceho príkazu. Inštaláciou „ množiny údajov ” knižnice, môžeme priamo importovať ľubovoľnú množinu údajov zadaním jej názvu:

!pip inštalačné množiny údajov

Krok 3: Pipeline množiny údajov

Ak chcete vytvoriť kanál na množine údajov, použite nasledujúci kód. KeyDataset je funkcia, ktorá zobrazuje iba tie hodnoty, ktoré používateľa zaujímajú:

z transformers.pipelines.pt_utils importujte súbor kľúčových údajov
z transformátorov import potrubia
z dátových množín importovať load_dataset
gen_pipeline = pipeline(model='hf-internal-testing/tiny-random-wav2vec2', device=0)
loaddataset = load_dataset('hf-internal-testing/librispeech_asr_dummy', 'clean', split='validation[:10]') pre výstup v gen_pipeline(KeyDataset(loaddataset, 'audio')):
print('Tlačí sa výstup teraz')
vytlačiť ('-----------------')
tlač (výstup)

Výstup vyššie uvedeného kódu je uvedený nižšie:

To je všetko z tohto návodu. Odkaz na Google Co je uvedený aj v tomto článku

Záver

Ak chcete použiť kanály na množinu údajov, môžeme buď iterovať množinu údajov pomocou funkcie pipeline() alebo použiť „ množiny údajov “knižnica. Hugging Face poskytuje svojim používateľom odkaz na úložisko GitHub pre súbory údajov aj modely, ktoré možno použiť na základe požiadaviek. Tento článok poskytuje komplexného sprievodcu aplikáciou potrubí na množinu údajov v Transformers.

Ako aplikovať potrubia na množinu údajov v transformátoroch?

Čo je knižnica množiny údajov Hugging Face?

Ako aplikovať potrubia na množinu údajov v objímaní tváre?

Metóda 1: Použitie iteračnej metódy

Krok 1: Nainštalujte knižnicu Transformer Library

Krok 2: Import potrubí

Krok 3: Implementujte potrubie

Metóda 2: Použitie knižnice množín údajov

Krok 1: Nainštalujte transformátor

Krok 2: Nainštalujte knižnicu množín údajov

Krok 3: Pipeline množiny údajov

Záver

Kategórie

Populárne Príspevky

Ako nainštalovať discord.py na Python

Arduino Nano Každý Pinout

Je bezpečné orezávať objemy Docker?

Ako zistiť, akú verziu Git používate

Čo je metóda array.slice() v JavaScripte?

Prečo „git push origin master“ nefunguje

CSS šírka zodpovedá obsahu

Ako odinštalovať dosky z Arduino IDE

Ako sťahovať filmy a relácie Netflix na pozeranie offline?

Ako používať VectorStoreRetrieverMemory v LangChain?

Čo je VPC v AWS?

Návod ako porozumieť varistoru a varistoru z oxidu kovu

Aké sú najlepšie generátory vtipov AI?

Čo je Amazon ElastiCache? Príručka vhodná pre začiatočníkov

Ako staticky umiestniť prvok v DOM – Tailwind?

Ako pridať výplň na všetky strany v Tailwinde?

Ako zmeniť zvuk budíka na zariadeniach s Androidom?

Ako blokovať alebo povoliť kontextové okná v prehliadači Chrome v systéme Android

Ako vytvoriť trvalý zväzok v Kubernetes

Dôvody, prečo je ventilátor MacBook taký hlasitý a ako to opraviť