Čo je Dalle-mini a ako to funguje?

Dalle-mini je model hlbokého učenia, ktorý dokáže vytvárať obrázky vysokej kvality zo vstupného textu používateľa. Je založený na modeli DALL-E, ktorý OpenAI vydala v januári 2021. DALL-E znamená „ Rozčlenený jazyk a latentný výraz “ je neurónová sieť založená na transformátore, ktorá dokáže zakódovať text a obrázky do spoločného latentného priestoru a potom ich dekódovať späť do oboch modalít.

Tento článok vysvetlí nasledujúci obsah:

Čo je Dalle-mini?

Dajte jej mini je menšia a rýchlejšia verzia DALL-E, ktorú vytvoril EleutherAI, open-source výskumný kolektív. Dalle-mini používa iba 6 miliárd parametrov v porovnaní s 12 miliardami DALL-E a môže bežať na jedinom GPU. Dalle-mini tiež používa iný tokenizér a slovnú zásobu na zadávanie textu, vďaka čomu je kompatibilnejší s rôznymi jazykmi a doménami:

Poznámka : Používatelia môžu vytvárať bezplatné obrázky pomocou Dalle-mini podľa nasledujúcich pokynov odkaz .

Aké je fungovanie Dalle-mini?

Hlavnou myšlienkou Dalle-mini je sila transformátorov, čo sú neurónové siete. Môžu sa naučiť dlhodobé závislosti a zložité vzorce v sekvenčných údajoch, ako je text alebo obrázky.

Transformátory sa skladajú z dvoch hlavných častí: kodéra a dekodéra. Prvá časť preberá vstup (textový popis) a mení ho na skryté vektory. Potom to dekodér vezme a vygeneruje výstup (obrázok), ktorý je relevantný pre vstup.

Aký je rozdiel medzi Dalle-mini a DALL-E?

Dalle-mini a DALL-E používajú zdieľanú architektúru kódovač-dekodér pre text aj obrázky. Môžu kódovať a dekódovať obe modality pomocou rovnakej siete. To im umožňuje naučiť sa spoločný latentný priestor, ktorý zachytáva sémantický vzťah medzi textom a obrázkami. Potom im umožňuje vykonávať cross-modálne generovanie, ako je vytváranie obrázkov z textu alebo naopak.

Ako funguje Dalle-mini?

Na vygenerovanie obrázka z textového popisu Dalle-mini najprv tokenizuje text pomocou algoritmu kódovania bajtov (BPE), ktorý rozdeľuje text na jednotky podslov na základe ich frekvencie a spoločného výskytu:

Poďme sa podrobne zaoberať vnútornou prácou Dalle-mini:

Interné fungovanie Dalle-mini

Predpokladajme, že slovo „ hranie “ môže byť rozdelené na “ pla “ a „ ying “. Tokeny sú potom mapované na číselné ID pomocou slovnej zásoby 8192 tokenov. ID sa vkladajú do kódovača a vytvárajú latentnú reprezentáciu veľkosti 256 x 64:

Dekodér potom prevezme latentnú reprezentáciu a vygeneruje obraz s veľkosťou 256 x 256 pixelov. Dekodér využíva autoregresný proces, čo znamená, že generuje každý pixel jeden po druhom, podmienený predchádzajúcimi pixelmi a latentnou reprezentáciou.

Ako vygenerovať obrázok z textového popisu pomocou Dalle-mini?

Ak chcete vygenerovať textový popis z obrázka pomocou Dalle-mini, zadajte text do okna výzvy. Zadajte napríklad „ Maľba náhodných kvetov “ vo výzve a stlačte „ Bežať tlačidlo ”:

Výstup ukazuje, že Dalle-mini vygenerovalo relevantné obrázky podľa vstupného textu.

Záver

Dalle-mini je pozoruhodný model, ktorý demonštruje potenciál transformátorov pre crossmodálnu generáciu. Dokážu vytvárať realistické a rôznorodé obrázky z opisov v prirodzenom jazyku, ako aj súvislé a relevantné texty z obrázkov. Poradia si aj so zložitými kompozíciami, napríklad kombináciou viacerých objektov alebo atribútov v jednom obrázku alebo texte. Tento článok podrobne vysvetlil Dalle-mini a jeho fungovanie.

Čo je Dalle-mini a ako to funguje?

Čo je Dalle-mini?

Aké je fungovanie Dalle-mini?

Aký je rozdiel medzi Dalle-mini a DALL-E?

Ako funguje Dalle-mini?

Ako vygenerovať obrázok z textového popisu pomocou Dalle-mini?

Záver

Kategórie

Populárne Príspevky

Ako zakázať Bezpečné vyhľadávanie Google a filtre vyhľadávania?

Využitie kódu Visual Studio pre vývoj PowerShell

Ako odinštalujem Docker z môjho počítača

[Opravené] Slúchadlá sa nezobrazujú v prehrávacích zariadeniach v systéme Windows 10

Monitorovanie systému Raspberry Pi cez btop++

Ako nainštalovať ovládače NVIDIA v systéme Windows 10/11

Čo je funkcia TRIM pre SSD a ako ju povoliť?

Ako previesť reťazec na pole znakov v Arduine pomocou funkcie toCharArray

Ako premenovať súbor alebo adresár v PHP pomocou funkcie rename().

Ako vytvoriť a upraviť tajomstvo v AWS pomocou CLI?

Ako stiahnuť a nainštalovať YouTube v systéme Windows 10/11?

Aplikácia Golang na spustenie ako kontajner Docker

Ako vyriešiť „uzol“ motora nie je kompatibilný s chybou modulu „Tento“.

Plotly.io.to_templated

Ako nainštalovať najnovšiu verziu NVIDIA CUDA na Ubuntu 22.04 LTS

Pandy do HTML

Ametyst Minecraft: Všetko, čo by ste o ňom mali vedieť

Ako nainštalovať ESP8266 v Arduino IDE

Ako spravovať medzery a výplne v responzívnych dizajnoch

Ako používať príkaz „describe-subnets“ v AWS CLI?