Čo je Dalle-mini a ako to funguje?

Co Je Dalle Mini A Ako To Funguje



Dalle-mini je model hlbokého učenia, ktorý dokáže vytvárať obrázky vysokej kvality zo vstupného textu používateľa. Je založený na modeli DALL-E, ktorý OpenAI vydala v januári 2021. DALL-E znamená „ Rozčlenený jazyk a latentný výraz “ je neurónová sieť založená na transformátore, ktorá dokáže zakódovať text a obrázky do spoločného latentného priestoru a potom ich dekódovať späť do oboch modalít.

Tento článok vysvetlí nasledujúci obsah:







Čo je Dalle-mini?

Dajte jej mini je menšia a rýchlejšia verzia DALL-E, ktorú vytvoril EleutherAI, open-source výskumný kolektív. Dalle-mini používa iba 6 miliárd parametrov v porovnaní s 12 miliardami DALL-E a môže bežať na jedinom GPU. Dalle-mini tiež používa iný tokenizér a slovnú zásobu na zadávanie textu, vďaka čomu je kompatibilnejší s rôznymi jazykmi a doménami:




Poznámka : Používatelia môžu vytvárať bezplatné obrázky pomocou Dalle-mini podľa nasledujúcich pokynov odkaz .



Aké je fungovanie Dalle-mini?

Hlavnou myšlienkou Dalle-mini je sila transformátorov, čo sú neurónové siete. Môžu sa naučiť dlhodobé závislosti a zložité vzorce v sekvenčných údajoch, ako je text alebo obrázky.





Transformátory sa skladajú z dvoch hlavných častí: kodéra a dekodéra. Prvá časť preberá vstup (textový popis) a mení ho na skryté vektory. Potom to dekodér vezme a vygeneruje výstup (obrázok), ktorý je relevantný pre vstup.

Aký je rozdiel medzi Dalle-mini a DALL-E?

Dalle-mini a DALL-E používajú zdieľanú architektúru kódovač-dekodér pre text aj obrázky. Môžu kódovať a dekódovať obe modality pomocou rovnakej siete. To im umožňuje naučiť sa spoločný latentný priestor, ktorý zachytáva sémantický vzťah medzi textom a obrázkami. Potom im umožňuje vykonávať cross-modálne generovanie, ako je vytváranie obrázkov z textu alebo naopak.



Ako funguje Dalle-mini?

Na vygenerovanie obrázka z textového popisu Dalle-mini najprv tokenizuje text pomocou algoritmu kódovania bajtov (BPE), ktorý rozdeľuje text na jednotky podslov na základe ich frekvencie a spoločného výskytu:


Poďme sa podrobne zaoberať vnútornou prácou Dalle-mini:

Interné fungovanie Dalle-mini

Predpokladajme, že slovo „ hranie “ môže byť rozdelené na “ pla “ a „ ying “. Tokeny sú potom mapované na číselné ID pomocou slovnej zásoby 8192 tokenov. ID sa vkladajú do kódovača a vytvárajú latentnú reprezentáciu veľkosti 256 x 64:


Dekodér potom prevezme latentnú reprezentáciu a vygeneruje obraz s veľkosťou 256 x 256 pixelov. Dekodér využíva autoregresný proces, čo znamená, že generuje každý pixel jeden po druhom, podmienený predchádzajúcimi pixelmi a latentnou reprezentáciou.

Ako vygenerovať obrázok z textového popisu pomocou Dalle-mini?

Ak chcete vygenerovať textový popis z obrázka pomocou Dalle-mini, zadajte text do okna výzvy. Zadajte napríklad „ Maľba náhodných kvetov “ vo výzve a stlačte „ Bežať tlačidlo ”:


Výstup ukazuje, že Dalle-mini vygenerovalo relevantné obrázky podľa vstupného textu.

Záver

Dalle-mini je pozoruhodný model, ktorý demonštruje potenciál transformátorov pre crossmodálnu generáciu. Dokážu vytvárať realistické a rôznorodé obrázky z opisov v prirodzenom jazyku, ako aj súvislé a relevantné texty z obrázkov. Poradia si aj so zložitými kompozíciami, napríklad kombináciou viacerých objektov alebo atribútov v jednom obrázku alebo texte. Tento článok podrobne vysvetlil Dalle-mini a jeho fungovanie.