Ako spojiť množiny údajov v objímaní tváre

Ako Spojit Mnoziny Udajov V Objimani Tvare



Knižnica „súborov údajov“ od spoločnosti Hugging Face poskytuje pohodlný spôsob práce so súbormi údajov a manipulácie s nimi pre úlohy spracovania prirodzeného jazyka. Jednou z užitočných funkcií, ktoré knižnica ponúka, je concatenate_datasets(), ktorá vám umožňuje zreťaziť viacero množín údajov do jednej množiny údajov. Nasleduje stručný prehľad funkcie concatenate_datasets() a ako ju používať.

concatenate_datasets()

Popis:

Knižnica „datasets“ Hugging Face poskytuje funkciu concatenate_datasets(). Používa sa na zreťazenie viacerých množín údajov, ktoré sa skombinujú do jednej množiny údajov pozdĺž špecifikovanej osi. Táto funkcia je užitočná najmä vtedy, keď máte viacero množín údajov, ktoré zdieľajú rovnakú štruktúru, a chcete ich zlúčiť do zjednotenej množiny údajov na ďalšie spracovanie a analýzu.







Syntax:



od množiny údajov importovať concatenate_datasets

zreťazená_množina_údajov = concatenate_datasets ( množiny údajov , os = 0 , Info = žiadne )

Parametre:

množiny údajov (zoznam množín údajov): Zoznam množín údajov, ktoré chcete zreťaziť. Tieto množiny údajov by mali mať kompatibilné funkcie, čo znamená, že majú rovnakú schému, názvy stĺpcov a typy údajov.



os (int, voliteľné, predvolené=0): Os, pozdĺž ktorej by sa malo vykonať zreťazenie. Pre väčšinu súborov údajov NLP sa používa predvolená hodnota 0, čo znamená, že súbory údajov sú vertikálne zreťazené. Ak nastavíte os = 1, množiny údajov sa spoja horizontálne za predpokladu, že majú rôzne stĺpce ako prvky.





Info (datasets.DatasetInfo, voliteľné): Informácie o zreťazenej množine údajov. Ak nie sú poskytnuté, informácie sa odvodia z prvého súboru údajov v zozname.

Vrátenie:

zreťazená_množina_údajov (Množina údajov): Výsledná množina údajov po zreťazení všetkých vstupných množín údajov.



Príklad:

# Krok 1: Nainštalujte knižnicu množín údajov

# Môžete ho nainštalovať pomocou pip:

# !pip inštalačné množiny údajov

# Krok 2: Importujte požadované knižnice

od množiny údajov importovať load_dataset , concatenate_datasets

# Krok 3: Načítajte súbory údajov recenzie filmov IMDb

# Použijeme dva súbory údajov IMDb, jeden pre pozitívne recenzie

#a ďalší pre negatívne recenzie.

# Načítať 2500 pozitívnych recenzií

dataset_pos = load_dataset ( 'imdb' , rozdeliť = 'vlak[:2500]' )

# Načítať 2500 negatívnych recenzií

dataset_neg = load_dataset ( 'imdb' , rozdeliť = 'vlak[-2500:]' )

# Krok 4: Zreťazte množiny údajov

# Obidve množiny údajov zreťazíme pozdĺž osi = 0, ako majú

rovnaká schéma ( rovnaké vlastnosti ) .

zreťazená_množina_údajov = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

# Krok 5: Analyzujte zreťazený súbor údajov

# Pre jednoduchosť spočítajme počet kladných a záporných bodov

# recenzií v zreťazenej množine údajov.

počet_pozitívnych_recenzií = súčet ( 1 pre štítok v

zreťazená_množina_údajov [ 'štítok' ] ak štítok == 1 )

počet_negatívnych_recenzií = súčet ( 1 pre štítok v

zreťazená_množina_údajov [ 'štítok' ] ak štítok == 0 )

# Krok 6: Zobrazte výsledky

vytlačiť ( 'Počet pozitívnych recenzií:' , počet_pozitívnych_recenzií )

vytlačiť ( 'Počet negatívnych recenzií:' , počet_negatívnych_recenzií )

# Krok 7: Vytlačte niekoľko vzorových recenzií zo zreťazeného súboru údajov

vytlačiť ( ' \n Niektoré príklady recenzií:' )

pre i v rozsah ( 5 ) :

vytlačiť ( f 'Recenzia {i + 1}: {concatenated_dataset['text'][i]}' )

Výkon:

Nasleduje vysvetlenie programu knižnice „súborov údajov“ Hugging Face, ktorý spája dva súbory údajov o recenziách filmov IMDb. Toto vysvetľuje účel programu, jeho použitie a kroky zahrnuté v kóde.

Uvedieme podrobnejšie vysvetlenie každého kroku v kóde:

# Krok 1: Importujte požadované knižnice

od množiny údajov importovať load_dataset , concatenate_datasets

V tomto kroku naimportujeme potrebné knižnice pre program. Potrebujeme funkciu „load_dataset“ na načítanie súborov údajov recenzií filmov IMDb a „concatenate_datasets“ na ich neskoršie zreťazenie.

# Krok 2: Načítajte súbory údajov na preskúmanie filmu IMDb

# Načítať 2500 pozitívnych recenzií

dataset_pos = load_dataset ( 'imdb' , rozdeliť = 'vlak[:2500]' )

# Načítať 2500 negatívnych recenzií

dataset_neg = load_dataset ( 'imdb' , rozdeliť = 'vlak[-2500:]' )

Tu používame funkciu „load_dataset“ na načítanie dvoch podmnožín súboru údajov IMDb. „dataset_pos“ obsahuje 2 500 pozitívnych recenzií a „dataset_neg“ obsahuje 2 500 negatívnych recenzií. Parameter split používame na zadanie rozsahu príkladov, ktoré sa majú načítať, čo nám umožňuje vybrať podmnožinu celého súboru údajov.

# Krok 3: Zreťazte množiny údajov

zreťazená_množina_údajov = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

V tomto kroku spájame dve podmnožiny súboru údajov IMDb do jedného súboru údajov s názvom „concatenate_dataset“. Používame funkciu „concatenate_datasets“ a odovzdávame ju so zoznamom, ktorý obsahuje dve množiny údajov na zreťazenie. Keďže oba súbory údajov majú rovnaké vlastnosti, zreťazíme ich pozdĺž osi = 0, čo znamená, že riadky sú naskladané jeden na druhom.

# Krok 4: Analyzujte zreťazenú množinu údajov

počet_pozitívnych_recenzií = súčet ( 1 pre štítok v

zreťazená_množina_údajov [ 'štítok' ] ak štítok == 1 )

počet_negatívnych_recenzií = súčet ( 1 pre štítok v

zreťazená_množina_údajov [ 'štítok' ] ak štítok == 0 )

Tu vykonáme jednoduchú analýzu zreťazeného súboru údajov. Na počítanie počtu pozitívnych a negatívnych recenzií používame zoznam porozumení spolu s funkciou „súčet“. Iterujeme cez label“ stĺpca „concatenated_dataset“ a zvýšte počty vždy, keď narazíme na pozitívne označenie (1) alebo negatívne označenie (0).

# Krok 5: Zobrazte výsledky

vytlačiť ( 'Počet pozitívnych recenzií:' , počet_pozitívnych_recenzií )

vytlačiť ( 'Počet negatívnych recenzií:' , počet_negatívnych_recenzií )

V tomto kroku vytlačíme výsledky našej analýzy – počet pozitívnych a negatívnych recenzií v zreťazenej množine údajov.

# Krok 6: Vytlačte si niekoľko príkladov recenzií

vytlačiť ( ' \n Niekoľko príkladov recenzií:' )

pre i v rozsah ( 5 ) :

vytlačiť ( f 'Recenzia {i + 1}: {concatenated_dataset['text'][i]}' )

Nakoniec uvádzame niekoľko príkladov recenzií zo zreťazeného súboru údajov. Prejdeme cez prvých päť príkladov v množine údajov a vytlačíme ich textový obsah pomocou stĺpca „text“.

Tento kód demonštruje jednoduchý príklad použitia knižnice „súborov údajov“ Hugging Face na načítanie, zreťazenie a analýzu súborov údajov recenzií filmov IMDb. Zdôrazňuje schopnosť knižnice zefektívniť prácu so súbormi údajov NLP a predstavuje jej potenciál na vytváranie sofistikovanejších modelov a aplikácií na spracovanie prirodzeného jazyka.

Záver

Program Python, ktorý používa knižnicu „súborov údajov“ Hugging Face, úspešne demonštruje zreťazenie dvoch súborov údajov o recenziách filmov IMDb. Načítaním podmnožín pozitívnych a negatívnych recenzií ich program skombinuje do jedného súboru údajov pomocou funkcie concatenate_datasets(). Potom vykoná jednoduchú analýzu spočítaním počtu pozitívnych a negatívnych recenzií v kombinovanom súbore údajov.

Knižnica „súborov údajov“ zjednodušuje proces manipulácie a manipulácie so súbormi údajov NLP, čo z nej robí výkonný nástroj pre výskumníkov, vývojárov a odborníkov v oblasti NLP. Knižnica so svojím užívateľsky prívetivým rozhraním a rozsiahlymi funkciami umožňuje jednoduché predbežné spracovanie, prieskum a transformáciu údajov. Program, ktorý je uvedený v tejto dokumentácii, slúži ako praktický príklad toho, ako možno využiť knižnicu na zefektívnenie zreťazenia údajov a úloh analýzy.

V reálnych scenároch môže tento program slúžiť ako základ pre komplexnejšie úlohy spracovania prirodzeného jazyka, ako je analýza sentimentu, klasifikácia textu a modelovanie jazyka. Pomocou knižnice „súborov údajov“ môžu výskumníci a vývojári efektívne spravovať rozsiahle súbory údajov, uľahčiť experimentovanie a urýchliť vývoj najmodernejších modelov NLP. Celkovo je knižnica „súborov údajov“ Hugging Face základným prínosom v snahe o pokrok v spracovaní a porozumení prirodzeného jazyka.