DALL-E

DALL-E
	Logo
Základní údaje
Datum založení	5. ledna 2021
Zakladatel	OpenAI
Identifikátory
Oficiální web	labs.openai.com
	Některá data mohou pocházet z datové položky.

DALL-E a DALL-E 2 jsou modely strojového učení vyvinuté společností OpenAI pro generování digitálních obrazů na základě popisů. Model DALL-E byl odhalen společností OpenAI v příspěvku na blogu v lednu 2021 a využívá verzi GPT-3 upravenou pro generování obrázků. V dubnu 2022 oznámila společnost OpenAI nástupce DALL-E 2, který má generovat realističtější obrázky ve vyšším rozlišení, které "dokáží kombinovat pojmy, atributy a styly".

Stručná fakta Základní údaje, Datum založení ...

Zavřít

Společnost OpenAI nezveřejnila zdrojový kód ani pro jeden z modelů, ačkoli výstup z omezeného výběru ukázkových výzev je k dispozici na webových stránkách OpenAI. Dne 20. července 2022 vstoupil DALL-E 2 do fáze beta, kdy byly pozvánky zaslány 1 milionu čekatelů. Přístup byl předtím omezen na předem vybrané uživatele pro výzkumný náhled kvůli obavám o etiku a bezpečnost. Dne 28. září 2022 byl DALL-E 2 zpřístupněn komukoli a požadavek na čekací listinu byl zrušen; uživatelé mohou zdarma vygenerovat určitý počet snímků a další si mohou zakoupit.

Technologie

DALL-E se skládá ze dvou neuronových sítí, z nichž jedna je GPT a druhá je VQ-GAN.^[1]

GPT se snaží předpovědět posloupnost tokenů na základě posloupnosti, která mu byla dána. Model je architektura transformátorů sestávající pouze z dekodéru. GPT se učí soustředit pozornost na předchozí slova, která jsou nejdůležitější pro předpovídání dalšího slova ve větě pomocí mechanismu pozornosti.^[2]

VQ-GAN je schopen komprimovat obraz do mřížky vektorů (tokenů) a rekonstruovat jej zpět do obrazu. Neuronová síť se skládá z kodéru, dekodéru a diskriminátoru.

VQ-GAN je kombinací myšlenek VQVAE a GAN.^[3]

DALL-E 2 využívá další vývoj OpenAI – CLIP - Contrastive Language-Image Pre-training artificial vision system (Comparative Text-Graphic Training). Systém se učí ze stovek milionů obrázků a jejich popisů, učí se rozlišovat "kolik" textového fragmentu X koreluje s obrázkem X, to znamená, že místo předpovídání, pro který obrázek je tento popis vhodnější, model umělého vidění přesně studuje, jak jsou tento text a tento obrázek propojeny. Srovnání namísto predikce umožňuje CLIPu navázat spojení mezi textovou a vizuální reprezentací stejného významu. CLIP definuje a vytváří sémantické vazby mezi textem a obrázkem.^[4]

Možnosti

Ihned po objevení DALL-E 2 začal humbuk (dokonce více než při objevení první verze algoritmu). Na webu se začaly rychle objevovat nové ukázky schopností neuronové sítě, takže uživatelům bylo ukázáno, jak může kreslit klasická díla, a pomocí ní proměnili "Monu Lisu" a "Dívku s perlou" v portréty v plnou výšku.^[5]

Neuronová síť byla také testována na pochopení smyslu pro humor a byla nucena předělat populární memy.^[6]

Obálka lesklého časopisu Cosmopolitan, kompletně generovaná neuronovou sítí od OpenAI, se stala velkou novinkou. Byla vytvořena týmem vedeným digitální umělkyní Karen X Chang. Autoři myšlenky vyzkoušeli mnoho možností, dokud se neusadili na poslední, vytvořené na vyžádání, "širokoúhlý záběr ze spodního úhlu ženského kosmonautu atletické stavby, který se houpal na kameru na povrchu Marsu v nekonečném vesmíru."^[7]

Odkazy

Reference

V tomto článku byl použit překlad textu z článku DALL-E na anglické Wikipedii.

[1]
Image GPT. OpenAI [online]. 2020-06-17 [cit. 2022-11-30]. Dostupné online. (anglicky)
[2]
DALL·E: Creating Images from Text. OpenAI [online]. 2021-01-05 [cit. 2022-11-30]. Dostupné online. (anglicky)
[3]
DALL-E 2.0, Explained. Medium [online]. 2022-05-16 [cit. 2022-12-01]. Dostupné online. (anglicky)
[4]
How Does DALL·E 2 Work? Medium [online]. 2022-04-27 [cit. 2022-11-30]. Dostupné online. (anglicky)
[5]
AI can now create any image in seconds, bringing wonder and danger. The Washington Post [online]. 2022-09-28 [cit. 2022-11-30]. Dostupné online. (anglicky)
[6]
People are using DALL-E mini to make meme abominations. The Polygon [online]. 2022-06-15 [cit. 2022-11-30]. Dostupné online. (anglicky)
[7]
The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover. Cosmopolitan [online]. 2022-06-15 [cit. 2022-11-30]. Dostupné online. (anglicky)

Související články

Midjourney

Externí odkazy

Obrázky, zvuky či videa k tématu DALL-E na Wikimedia Commons

[1] [1]
Image GPT. OpenAI [online]. 2020-06-17 [cit. 2022-11-30]. Dostupné online. (anglicky)

[2] [2]
DALL·E: Creating Images from Text. OpenAI [online]. 2021-01-05 [cit. 2022-11-30]. Dostupné online. (anglicky)

[3] [3]
DALL-E 2.0, Explained. Medium [online]. 2022-05-16 [cit. 2022-12-01]. Dostupné online. (anglicky)

[4] [4]
How Does DALL·E 2 Work? Medium [online]. 2022-04-27 [cit. 2022-11-30]. Dostupné online. (anglicky)

[5] [5]
AI can now create any image in seconds, bringing wonder and danger. The Washington Post [online]. 2022-09-28 [cit. 2022-11-30]. Dostupné online. (anglicky)

[6] [6]
People are using DALL-E mini to make meme abominations. The Polygon [online]. 2022-06-15 [cit. 2022-11-30]. Dostupné online. (anglicky)

[7] [7]
The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover. Cosmopolitan [online]. 2022-06-15 [cit. 2022-11-30]. Dostupné online. (anglicky)

[1]

[2]

[3]

[4]

[5]

[6]

[7]