DALL-E a DALL-E 2 jsou modely strojového učení vyvinuté společností OpenAI pro generování digitálních obrazů na základě popisů. Model DALL-E byl odhalen společností OpenAI v příspěvku na blogu v lednu 2021 a využívá verzi GPT-3 upravenou pro generování obrázků. V dubnu 2022 oznámila společnost OpenAI nástupce DALL-E 2, který má generovat realističtější obrázky ve vyšším rozlišení, které "dokáží kombinovat pojmy, atributy a styly".

Stručná fakta Základní údaje, Datum založení ...
DALL-E
Thumb
Logo
Thumb
Základní údaje
Datum založení5. ledna 2021
ZakladatelOpenAI
Identifikátory
Oficiální weblabs.openai.com
Některá data mohou pocházet z datové položky.
Zavřít

Společnost OpenAI nezveřejnila zdrojový kód ani pro jeden z modelů, ačkoli výstup z omezeného výběru ukázkových výzev je k dispozici na webových stránkách OpenAI. Dne 20. července 2022 vstoupil DALL-E 2 do fáze beta, kdy byly pozvánky zaslány 1 milionu čekatelů. Přístup byl předtím omezen na předem vybrané uživatele pro výzkumný náhled kvůli obavám o etiku a bezpečnost. Dne 28. září 2022 byl DALL-E 2 zpřístupněn komukoli a požadavek na čekací listinu byl zrušen; uživatelé mohou zdarma vygenerovat určitý počet snímků a další si mohou zakoupit.

Technologie

DALL-E se skládá ze dvou neuronových sítí, z nichž jedna je GPT a druhá je VQ-GAN.[1]

GPT se snaží předpovědět posloupnost tokenů na základě posloupnosti, která mu byla dána. Model je architektura transformátorů sestávající pouze z dekodéru. GPT se učí soustředit pozornost na předchozí slova, která jsou nejdůležitější pro předpovídání dalšího slova ve větě pomocí mechanismu pozornosti.[2]

VQ-GAN je schopen komprimovat obraz do mřížky vektorů (tokenů) a rekonstruovat jej zpět do obrazu. Neuronová síť se skládá z kodéru, dekodéru a diskriminátoru.

VQ-GAN je kombinací myšlenek VQVAE a GAN.[3]

DALL-E 2 využívá další vývoj OpenAI – CLIP - Contrastive Language-Image Pre-training artificial vision system (Comparative Text-Graphic Training). Systém se učí ze stovek milionů obrázků a jejich popisů, učí se rozlišovat "kolik" textového fragmentu X koreluje s obrázkem X, to znamená, že místo předpovídání, pro který obrázek je tento popis vhodnější, model umělého vidění přesně studuje, jak jsou tento text a tento obrázek propojeny. Srovnání namísto predikce umožňuje CLIPu navázat spojení mezi textovou a vizuální reprezentací stejného významu. CLIP definuje a vytváří sémantické vazby mezi textem a obrázkem.[4]

Možnosti

Ihned po objevení DALL-E 2 začal humbuk (dokonce více než při objevení první verze algoritmu). Na webu se začaly rychle objevovat nové ukázky schopností neuronové sítě, takže uživatelům bylo ukázáno, jak může kreslit klasická díla, a pomocí ní proměnili "Monu Lisu" a "Dívku s perlou" v portréty v plnou výšku.[5]

Neuronová síť byla také testována na pochopení smyslu pro humor a byla nucena předělat populární memy.[6]

Obálka lesklého časopisu Cosmopolitan, kompletně generovaná neuronovou sítí od OpenAI, se stala velkou novinkou. Byla vytvořena týmem vedeným digitální umělkyní Karen X Chang. Autoři myšlenky vyzkoušeli mnoho možností, dokud se neusadili na poslední, vytvořené na vyžádání, "širokoúhlý záběr ze spodního úhlu ženského kosmonautu atletické stavby, který se houpal na kameru na povrchu Marsu v nekonečném vesmíru."[7]

Odkazy

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.