DALL-E

DALL-E
DALL-E生成的一系列長頸鹿與龍的嵌合體圖像
原作者	OpenAI
首次發佈	2021年1月5日
類型	Transformer模型
網站	openai.com/blog/dall-e/

DALL-E

DALL-E生成的一系列長頸鹿與龍的嵌合體圖像

原作者

OpenAI

首次發佈

2021年1月5日

類型

Transformer模型

網站

openai.com/blog/dall-e/

簡介

DALL-E通過120億參數^[1]版本的GPT-3 Transformer模型來理解自然語言輸入（例如「五邊形形狀的綠色皮革錢包」或「一隻悲傷水豚的等距視圖」）並生成相應的圖片。^[2]它既可以生成現實的對象（例如「帶有藍色草莓圖像的彩色玻璃窗」），也能夠生成現實中不存在的對象（例如「具有豪豬紋理的立方體」）。^[3]^[4]^[5]它的名字是2008年動畫電影WALL-E（瓦力）和20世紀西班牙加泰羅尼亞畫家薩爾瓦多·達利（Salvador Dalí）之混成詞。^[1]^[2]

自2000年代以來，已有其他許多神經網絡有生成逼真圖像的能力。^[2]而DALL-E的特點在於它能夠通過純文本描述生成這樣逼真的圖像。^[2]

OpenAI尚未發佈DALL-E模型的原始碼，不過OpenAI在其網站上提供了DALL-E演示，可以查看部分文本描述的輸出圖像。^[1]除了官方版本的DALL-E，另有DALL-E Mini等其他人發佈的以少量數據訓練的開源替代方案。^[6]

《麻省理工科技評論》認為OpenAI的目標之一是「讓語言模型更好地掌握人類用來理解事物的日常概念」。^[7]

歷史

DALL-E模型最初於2021年1月5日由OpenAI發佈。^[7]

2022年4月，OpenAI宣佈了新版本的DALL-E 2，聲稱它可以從文本描述中生成照片般逼真的圖像，另外還有一個允許對輸出進行簡單修改的編輯器。根據OpenAI的公告，該程序仍處於研究階段，訪問權限僅限於小部分測試版用戶。該模型有時仍會犯一些人類不會犯的嚴重錯誤。^[8]OpenAI稱DALL-E 2是一個「可以從文本描述中生成原創、逼真的圖像和藝術」的模型。^[9]

CLIP模型

DALL-E是與CLIP（Contrastive Language-Image Pre-training，對比圖文預訓練）模型一起開發並向公眾發佈的。^[7]CLIP是一個單獨的模型，其作用是理解輸出圖像並為其打分。^[2]DALL-E生成的圖像由CLIP模型進行篩選，以呈現最高品質的圖像。^[7]

架構

GPT模型最初由OpenAI於2018年開發^[10]，其使用了Transformer架構。第二版的GPT-2於2019年發佈。^[11]2020年又再次擴大規模發佈了擁有1750億個參數的GPT-3。^[1]

DALL-E模型是GPT-3的多模態實現，共擁有120億個參數^[1]，使用從網絡上收集的文本和圖像對進行訓練。 ^[7]它使用零樣本學習（英語：Zero-shot learning）從描述和提示中生成輸出，而無需進一步訓練。^[12]

DALL-E會根據提示生成多個圖像，之後由CLIP模型對這些圖像進行排序。^[2]CLIP模型使用了超過4億對圖像和文本進行訓練。^[1]該模型是一個圖像識別系統^[13]，它的訓練集是從網絡上抓取的圖像與描述，而不是諸如ImageNet之類的經過整理的標記圖像數據集。^[7]CLIP將圖像與所有文本相關聯。^[7]它能夠預測哪個文本（從32768個隨機採樣的文本中選擇）最適合圖像，使其在之後有能力識別不在其訓練集之中的圖像中的對象。 ^[7]

表現

DALL-E能夠生成各種風格的圖像，從照相寫實主義圖像^[1]到繪畫和表情符號。它還可以「操縱和重新排列」圖像中的對象。^[1]其創作者指出DALL-E的一項能力是在沒有明確指示的情況下將設計元素正確放置在新穎的作品中：「例如，當被要求畫一個白蘿蔔擤鼻涕、喝拿鐵或騎獨輪車時，DALL-E通常能在合理的位置畫出手帕、手和腳。」 ^[14]

DALL-E展現了多種能力。《Input》^[15]、NBC^[16]、《自然》^[17]等的報道文章中都提到了DALL-E生成的「穿着芭蕾舞裙遛狗的小白蘿蔔插圖」。 ^[1]^[18]^[19]而它生成的「鱷梨形狀的扶手椅」也同樣受到關注。^[7]^[20]另一方面，DALL-E還展現出了足以解決瑞文氏標準推理測驗（通常用於測量人類智力的視覺測試）的視覺推理技能。 ^[21]

另外透過增加API提示，可以生成符合特定用途或風格的圖片，用以中性化或達成特殊目的。例如文字與圖片相互配合的語言遲緩治療工具^[22]，因為對象多為學齡前幼兒，所以必須將圖片濾除太過成人導向的部分。。

劍橋大學機器學習教授尼爾·勞倫斯（Neil Lawrence）認為DALL-E這類模型有能力存儲關於我們這個世界的信息，並以人類認為非常自然的方式進行推廣。佐治亞理工學院交互計算學院副教授馬克·里德爾（Mark Riedl）則認為DALL-E的演示結果表明它能夠協調地融合概念，這是人類創造力的關鍵要素，同時他指出DALL-E繪製的插圖比過去幾年其他的Text2Image（由文本生成圖像）系統要出色許多。^[23]

DALL-E模型在沒有特定提示的情況下也能夠推斷合適細節的能力也受到了關注。技術博客ExtremeTech注意到，DALL-E繪製的「穿着聖誕毛衣的企鵝」不僅會生成企鵝穿着毛衣的圖像，而且還會生成與主題相關的聖誕老人帽。^[24]另一個技術博客Engadget則注意到模型生成的「一幅一隻狐狸冬天坐在田野里的畫」中出現了適當放置的陰影。^[12]此外，DALL-E展示了對視覺和設計趨勢的廣泛理解。例如，DALL-E可以繪製指定年代的手機或吸塵器的照片，它了解這些物體的形態是如何隨時間改變的。^[24]^[12]

不過有時模型也會出現錯誤。比如DALL-E 2就無法區分「一本黃色的書與一個紅色的花瓶」與「一本紅色的書與一個黃色的花瓶」這兩個描述，也無法區分「正在咖啡拉花的熊貓」與「熊貓圖案的咖啡拉花」。^[25]

參見

簡介

歷史

CLIP模型

架構

表現

參見

參考文獻

Wikiwand - on