Ako používať tokenizéry v Hugging Face Transformers?

Ako Pouzivat Tokenizery V Hugging Face Transformers



Spracovanie prirodzeného jazyka (NLP) funguje na surovej forme údajov. Modely strojového učenia sú trénované na zložitých údajoch, ale nedokážu porozumieť nespracovaným údajom. S touto surovou formou údajov musí byť spojená určitá číselná hodnota. Táto hodnota určuje hodnotu a dôležitosť slova v údajoch a na tomto základe sa vykonávajú výpočty.

Tento článok poskytuje podrobného sprievodcu o používaní tokenizérov v Hugging Face Transformers.

Čo je tokenizér?

Tokenizer je dôležitým konceptom NLP a jeho hlavným cieľom je preložiť nespracovaný text na čísla. Na tento účel existujú rôzne techniky a metodológie. Je však potrebné poznamenať, že každá technika slúži na konkrétny účel.
Ako používať tokenizéry v Hugging Face Transformers?







Ako používať tokenizéry v Hugging Face Transformers?

Knižnica tokenizer musí byť najprv nainštalovaná pred jej použitím a importovaním funkcií z nej. Potom trénujte model pomocou funkcie AutoTokenizer a potom poskytnite vstup na vykonanie tokenizácie.



Hugging Face predstavuje tri hlavné kategórie tokenizácie, ktoré sú uvedené nižšie:



  • Tokenizér založený na slove
  • Tokenizer založený na postavách
  • Tokenizér založený na podslovách

Tu je podrobný návod na používanie tokenizérov v Transformers:





Krok 1: Nainštalujte transformátory
Ak chcete nainštalovať transformátory, použite príkaz pip v nasledujúcom príkaze:

! pip Inštalácia transformátory



Krok 2: Import tried
Z transformátorov, dovoz potrubia , a AutoModelForSequenceClassification knižnica na vykonanie klasifikácie:

z transformátorov import potrubia, AutoModelForSequenceClassification

Krok 3: Importujte model
' AutoModelForSequenceClassification ” je metóda, ktorá patrí do Auto-Class pre tokenizáciu. The from_pretrained() metóda sa používa na vrátenie správnej triedy modelu na základe typu modelu.

Tu sme uviedli názov modelu v „ meno modela ” premenná:

meno modela = 'distilbert-base-uncased-finetuned-sst-2-english'
pred_tréningový model =AutoModelForSequenceClassification.from_pretrained ( meno modela )

Krok 4: Importujte AutoTokenizer
Zadajte nasledujúci príkaz na generovanie tokenov odovzdaním „ meno modela “ ako argument:

z transformátorov importujte AutoTokenizer

vygenerovaný token =AutoTokenizer.from_pretrained ( meno modela )

Krok 5: Vygenerujte token
Teraz vygenerujeme tokeny na vete “Milujem dobré jedlo” pomocou „ vygenerovaný token ” premenná:

slová =generatetoken ( 'Milujem dobré jedlo' )
vytlačiť ( slová )

Výstup je daný nasledovne:

Kód k vyššie uvedenému Google Co je uvedené tu.

Záver

Ak chcete použiť tokenizéry v Hugging Face, nainštalujte knižnicu pomocou príkazu pip, natrénujte model pomocou funkcie AutoTokenizer a potom poskytnite vstup na vykonanie tokenizácie. Pomocou tokenizácie priraďte váhu slovám, na základe ktorých sú zoradené, aby sa zachoval význam vety. Toto skóre tiež určuje ich hodnotu pre analýzu. Tento článok je podrobným sprievodcom, ako používať tokenizéry v Hugging Face Transformers.