Ako používať tokenizéry v Hugging Face Transformers?

Spracovanie prirodzeného jazyka (NLP) funguje na surovej forme údajov. Modely strojového učenia sú trénované na zložitých údajoch, ale nedokážu porozumieť nespracovaným údajom. S touto surovou formou údajov musí byť spojená určitá číselná hodnota. Táto hodnota určuje hodnotu a dôležitosť slova v údajoch a na tomto základe sa vykonávajú výpočty.

Tento článok poskytuje podrobného sprievodcu o používaní tokenizérov v Hugging Face Transformers.

Čo je tokenizér?

Tokenizer je dôležitým konceptom NLP a jeho hlavným cieľom je preložiť nespracovaný text na čísla. Na tento účel existujú rôzne techniky a metodológie. Je však potrebné poznamenať, že každá technika slúži na konkrétny účel.
Ako používať tokenizéry v Hugging Face Transformers?

Ako používať tokenizéry v Hugging Face Transformers?

Knižnica tokenizer musí byť najprv nainštalovaná pred jej použitím a importovaním funkcií z nej. Potom trénujte model pomocou funkcie AutoTokenizer a potom poskytnite vstup na vykonanie tokenizácie.

Hugging Face predstavuje tri hlavné kategórie tokenizácie, ktoré sú uvedené nižšie:

Tokenizér založený na slove
Tokenizer založený na postavách
Tokenizér založený na podslovách

Tu je podrobný návod na používanie tokenizérov v Transformers:

Krok 1: Nainštalujte transformátory
Ak chcete nainštalovať transformátory, použite príkaz pip v nasledujúcom príkaze:

! pip Inštalácia transformátory

Krok 2: Import tried
Z transformátorov, dovoz potrubia , a AutoModelForSequenceClassification knižnica na vykonanie klasifikácie:

z transformátorov import potrubia, AutoModelForSequenceClassification

Krok 3: Importujte model
' AutoModelForSequenceClassification ” je metóda, ktorá patrí do Auto-Class pre tokenizáciu. The from_pretrained() metóda sa používa na vrátenie správnej triedy modelu na základe typu modelu.

Tu sme uviedli názov modelu v „ meno modela ” premenná:

meno modela = 'distilbert-base-uncased-finetuned-sst-2-english'
pred_tréningový model =AutoModelForSequenceClassification.from_pretrained ( meno modela )

Krok 4: Importujte AutoTokenizer
Zadajte nasledujúci príkaz na generovanie tokenov odovzdaním „ meno modela “ ako argument:

z transformátorov importujte AutoTokenizer

vygenerovaný token =AutoTokenizer.from_pretrained ( meno modela )

Krok 5: Vygenerujte token
Teraz vygenerujeme tokeny na vete “Milujem dobré jedlo” pomocou „ vygenerovaný token ” premenná:

slová =generatetoken ( 'Milujem dobré jedlo' )
vytlačiť ( slová )

Výstup je daný nasledovne:

Kód k vyššie uvedenému Google Co je uvedené tu.

Záver

Ak chcete použiť tokenizéry v Hugging Face, nainštalujte knižnicu pomocou príkazu pip, natrénujte model pomocou funkcie AutoTokenizer a potom poskytnite vstup na vykonanie tokenizácie. Pomocou tokenizácie priraďte váhu slovám, na základe ktorých sú zoradené, aby sa zachoval význam vety. Toto skóre tiež určuje ich hodnotu pre analýzu. Tento článok je podrobným sprievodcom, ako používať tokenizéry v Hugging Face Transformers.

Ako používať tokenizéry v Hugging Face Transformers?

Čo je tokenizér?

Ako používať tokenizéry v Hugging Face Transformers?

Záver

Kategórie

Populárne Príspevky

Čo je AWS Systems Manager Parameter Store?

Ako nájsť normy v MATLABE?

Aký je rozdiel medzi EC2 a RDS?

Pandy Sumový stĺpec

Čo je Discord Canary a je bezpečné ho používať?

Čo je vlastnosť nodeValue prvku HTML DOM v JavaScripte

Ako odstrániť záväzok z pobočky v Git

Ako vytvoriť viacero profilov pripojenia NetworkManager pre rovnaké sieťové rozhranie v systéme Linux a prepínať medzi nimi

Čo presne je záväzok zlúčenia v Git?

Ako spúšťať príkazy Linuxu na pozadí

CharAt() v C++

8 opráv pre nefunkčné posúvanie touchpadu

Ako používať rôzne príznaky pri exporte databázy MySQL?

Ako prepnúť počítač so systémom Windows do režimu spánku

Aké je použitie príkazu Docker Copy?

ESP32 – Bluetooth Classic vs Bluetooth Low Energy (BLE)

Čo je konvencia pomenovania v C++

Ako nainštalovať Domoticz na Raspberry Pi

Ako obnoviť neuložené dokumenty programu Word v systéme Windows 10?

Diaľkové ovládanie Raspberry Pi cez PiAssistant