Metóda filtra objímania tváre ().

Metoda Filtra Objimania Tvare



Hugging Face má niekoľko modelov a množín údajov na spracovanie prirodzeného jazyka (NLP). Tieto obrovské súbory údajov obsahujú veľa informácií, ktoré pomáhajú presne trénovať model. Niekedy však nepotrebujeme celý súbor údajov, pretože na uspokojenie našich aktuálnych potrieb potrebujeme iba jeho malú časť. Ak chceme použiť rovnaký súbor údajov ako zvyčajne so všetkými informáciami, trénovanie a optimalizácia modelu zaberie veľa času, čo je strata času.

Potrebujeme teda nejaký druh metódy alebo balíka, ktorý dokáže extrahovať relevantné informácie zo súborov údajov. Jednoducho povedané, môžeme povedať, že potrebujeme ďalšiu možnosť filtrovania na filtrovanie množín údajov podľa našich požiadaviek.

Hugging Face poskytuje rôzne možnosti filtrovania množín údajov, čo pomáha používateľom vytvárať prispôsobené množiny údajov, ktoré obsahujú iba príklady alebo informácie, ktoré spĺňajú špecifické podmienky.







Metóda Select().

Táto metóda funguje na zozname indexov, čo znamená, že musíme definovať zoznam. V tomto zozname musíme spomenúť všetky indexové hodnoty týchto riadkov, ktoré chceme extrahovať. Táto metóda však funguje iba pre malé súbory údajov a nie pre veľké súbory údajov, pretože nie sme schopní vidieť celý súbor údajov, ak je v GB (gigabajty) alebo TB (tera bajty).



Príklad :

new_dataset = súbor údajov. vyberte ( [ 0 , jedenásť , dvadsaťjeden , Štyri, päť , päťdesiat , 55 ] )

vytlačiť ( len ( new_dataset ) )

V tomto príklade sme použili metódu „select“ na filtrovanie požadovaných informácií zo súboru údajov.



Filter() metóda

Metóda filter() prekonáva problémy procesu select(), pretože neexistuje žiadna špecifická podmienka. Metóda filter() vráti všetky riadky, ktoré zodpovedajú konkrétnej situácii alebo podmienke.





Príklad: Tento program Python uložíme pod názvom „test.py“.

od množiny údajov importovať load_dataset

# Krok 1: Načítajte súbor údajov
súbor údajov = load_dataset ( 'imdb' )

# Krok 2: Definujte funkciu filtrovania
def custom_filter ( príklad ) :
'''
Vlastná funkcia filtrovania na uchovanie príkladov s pozitívami
sentiment (označenie == 1).
'''

vrátiť príklad [ 'štítok' ] == 1

# Krok 3: Použite filter na vytvorenie novej filtrovanej množiny údajov
filter_dataset = súbor údajov. filter ( custom_filter )

# Krok 4: Skontrolujte dostupné názvy stĺpcov vo filtrovanej množine údajov
vytlačiť ( 'Dostupné stĺpce vo filtrovanej množine údajov:' ,
filter_dataset. názvy stĺpcov )

# Krok 5: Prístup k informáciám z filtrovanej množiny údajov
filtrované_príklady = filter_dataset [ 'vlak' ]
num_filtered_examples = len ( filtrované_príklady )

# Krok 6: Vytlačte celkový počet filtrovaných príkladov
vytlačiť ( 'Celkový počet filtrovaných príkladov:' , num_filtered_examples )

Výkon:



Vysvetlenie:

Riadok 1: Importujeme požadovaný balík load_dataset z množín údajov.

Riadok 4: Načítame súbor údajov „imdb“ pomocou súboru údajov load_dataset.

Riadky 7 až 12: Definujeme funkciu vlastného filtrovania custom_filter zachovať príklady s pozitívnym sentimentom (označenie == 1). Táto funkcia vráti iba tie riadky, ktorých hodnota označenia je 1.

Riadok 15: Tento riadok ukazuje, že množina údajov obsahuje údaje o recenzii filmu „imdb“. Teraz na túto databázu aplikujeme funkciu filtra, aby sme oddelili pozitívne recenzie od databázy, ktorá je ďalej uložená v súbore „filtered_dataset“.

Riadky 18 a 19: Teraz skontrolujeme, aké názvy stĺpcov sú dostupné v množine filtrovaných_údajov. Kód „filtered_dataset.column_names“ teda poskytuje podrobnosti o našich požiadavkách.

Riadky 22 a 23: V týchto riadkoch vyfiltrujeme stĺpec „vlak“ množiny filtrovaných_údajov a vytlačíme celkové číslo (dĺžku) stĺpca vlaku.

Riadok 26: V tomto poslednom riadku vytlačíme výsledok z riadku číslo 23.

Filter() s indexmi

Metódu filter() možno použiť aj s indexmi, ako je vidieť v režime select(). Na to však musíme spomenúť, že kľúčové slovo „with_indices=true“ musí byť špecifikované mimo metódy filter(), ako je znázornené v nasledujúcom príklade:

nepárny_dataset = súbor údajov. filter ( lambda príklad , idx: idx % 2 != 0 , s_indexmi = Pravda )

vytlačiť ( len ( nepárny_dataset ) )

V tomto príklade sme použili metódu filter() na filtrovanie požadovaných informácií z množiny údajov vrátane iba tých riadkov, ktoré sú nepárne.

Kompletné podrobnosti o každom parametri metódy filter() nájdete tu odkaz .

Záver

Knižnica množín údajov Hugging Face poskytuje výkonnú a užívateľsky prívetivú súpravu nástrojov na efektívnu prácu s rôznymi množinami údajov, najmä v kontexte spracovania prirodzeného jazyka (NLP) a úloh strojového učenia. Funkcia filter() prezentovaná v programe umožňuje výskumníkom a odborníkom z praxe extrahovať príslušné podmnožiny údajov definovaním užívateľom definovaných kritérií filtrovania. Pomocou tejto funkcie môžu používatelia bez námahy vytvárať nové súbory údajov, ktoré spĺňajú špecifické podmienky, ako je udržiavanie pozitívneho sentimentu vo filmových recenziách alebo extrahovanie špecifických textových údajov.

Táto ukážka krok za krokom ilustruje, aké ľahké je načítať množinu údajov, aplikovať funkcie vlastného filtra a pristupovať k filtrovaným údajom. Okrem toho flexibilita parametrov funkcií umožňuje vlastné operácie filtrovania vrátane podpory viacnásobného spracovania veľkých súborov údajov. Pomocou knižnice množín údajov Hugging Face môžu používatelia zefektívniť svoje údaje.