DreamBooth

DreamBooth是一個深度學習模型，用於微調現有的文生圖模型，由Google Research和波士頓大學的研究人員於2022年開發。最初利用谷歌開發的的Imagen文生圖模型開發，DreamBooth可以應用到其他文生圖模型，在使用指定主題的三到五張圖像進行演算、訓練後，可以讓模型產生更精細和個性化的輸出圖像。^[1]^[2]^[3]

技術

預先訓練的文生圖擴散模型，雖然通常能夠提供多種不同的圖像輸出，但缺乏生成不太知名的主題圖像所需的特異性，並且在不同情況和背景下呈現已知主題的能力有限。^[1] 運行DreamBooth來微調模型的過程首先需要輸入一小套描繪某一種特定主題的圖像，一般三到五張圖像就足夠了，這些圖像與包含主題所屬類別名稱的提示詞（英語）配對，加上一個獨特的標識符（例如：a photograph of a [Nissan R34 GTR] car，用car作爲類別）；同時，一個「特定類別的先驗保存損失」（class-specific prior preservation loss）來讓模型在已經訓練好的類別上產生不同的主題實例。^[1] 從一組輸入圖像中提取的一對低解像度和高解像度的圖像被用來微調超解像度組件，從而保留主題的微小細節。^[1]

用法

DreamBooth可以用來對Stable Diffusion等模型進行微調，通過這種用例它能夠緩解Stable Diffusion無法生成特定個人圖像的常見缺陷。^[4] 然而，這樣的用例是相當耗費VRAM的，因此對業餘用戶來說是成本高昂的。^[4] 有人對使用DreamBooth來訓練模仿與人類藝術家的特定藝術風格的道德問題表示關切。^[5]

參考文獻

[1]
Ruiz, Nataniel; Li, Yuanzhen; Jampani, Varun; Pritch, Yael; Rubinstein, Michael; Aberman, Kfir. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation. arXiv (Google Research, Boston University). 2022-08-25 [2022-11-04]. doi:10.48550/arXiv.2208.12242. （原始內容存檔 (PDF)於2022-09-29）（英語）.
[2]
山下裕毅. 愛犬の合成画像を生成できるAI　文章で指示するだけでコスプレ　米Googleが開発. ITmedia Inc. 2022-09-01 [2022-11-04]. （原始內容存檔於2022-08-31）（日語）. 米Google Researchと米ボストン大學の研究チームが開発した...數枚の被寫體畫像とテキスト入力を使って、與えられた被寫體が溶け込んだ新たな合成畫像を作成する被寫體駆動型Text-to-Imageモデルだ。[...由谷歌研究院和波士頓大學的一個研究小組開發，是一個主題驅動的文生圖模型，它採用一個主題的幾張圖像和提示詞來創建新生成的具有該主題的圖像。]
[3]
Brendan Murphy. AI image generation is advancing at astronomical speeds. Can we still tell if a picture is fake?. The Conversation. 2022-10-13 [2022-11-04]. （原始內容存檔於2022-10-30）（英語）. Recently, Google has released Dream Booth, an alternative, more sophisticated method for injecting specific people, objects or even art styles into text-to-image AI systems.[最近，谷歌發佈了DreamBooth，這是一種另類的、更複雜的方法，可以將特定的人、物體甚至藝術風格注入文生圖的人工智能係統中。]
[4]
清水亮. まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか？. Yahoo! News Japan. 2022-10-26 [2022-11-04]. （原始內容存檔於2022-10-26）（日語）. Stable Diffusionは、一般に個人の寫真や特定の人物を出すのが苦手だが、自分のペットや友人の寫真をわずかな枚數から學習させる「Dreambooth」という技術が開発され、これも話題を呼んだ。ただし、Dreamboothでは、巨大なGPUメモリが必要になり、個人ユーザーが趣味の範囲で買えるGPUでは事実上実行不可能なのがネックとされていた。[Stable Diffusion在生成個人照片通常是有缺陷的，但「DreamBooth」的開發允許從少量以寵物或朋友的照片中進行訓練，引起了相當大的轟動。然而，缺點是DreamBooth需要大量的GPU內存，使得它在個人用戶在業餘價格範圍內能夠負擔得起的GPU上運行實際上是不可行的。]
[5]
Andy Baio. Invasive Diffusion: How one unwilling illustrator found herself turned into an AI model. Waxy. 2022-11-01 [2022-11-04]. （原始內容存檔於2022-11-01）（英語）.

外部連結

DreamBooth的官方GitHub IO （頁面存檔備份，存於互聯網檔案館）
Stable Diffusion的DreamBooth實現（頁面存檔備份，存於互聯網檔案館）

[ruiz-et-al-1] [1]
Ruiz, Nataniel; Li, Yuanzhen; Jampani, Varun; Pritch, Yael; Rubinstein, Michael; Aberman, Kfir. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation. arXiv (Google Research, Boston University). 2022-08-25 [2022-11-04]. doi:10.48550/arXiv.2208.12242. （原始內容存檔 (PDF)於2022-09-29）（英語）.

[2] [2]
山下裕毅. 愛犬の合成画像を生成できるAI　文章で指示するだけでコスプレ　米Googleが開発. ITmedia Inc. 2022-09-01 [2022-11-04]. （原始內容存檔於2022-08-31）（日語）. 米Google Researchと米ボストン大學の研究チームが開発した...數枚の被寫體畫像とテキスト入力を使って、與えられた被寫體が溶け込んだ新たな合成畫像を作成する被寫體駆動型Text-to-Imageモデルだ。[...由谷歌研究院和波士頓大學的一個研究小組開發，是一個主題驅動的文生圖模型，它採用一個主題的幾張圖像和提示詞來創建新生成的具有該主題的圖像。]

[3] [3]
Brendan Murphy. AI image generation is advancing at astronomical speeds. Can we still tell if a picture is fake?. The Conversation. 2022-10-13 [2022-11-04]. （原始內容存檔於2022-10-30）（英語）. Recently, Google has released Dream Booth, an alternative, more sophisticated method for injecting specific people, objects or even art styles into text-to-image AI systems.[最近，谷歌發佈了DreamBooth，這是一種另類的、更複雜的方法，可以將特定的人、物體甚至藝術風格注入文生圖的人工智能係統中。]

[yahoojpn-4] [4]
清水亮. まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか？. Yahoo! News Japan. 2022-10-26 [2022-11-04]. （原始內容存檔於2022-10-26）（日語）. Stable Diffusionは、一般に個人の寫真や特定の人物を出すのが苦手だが、自分のペットや友人の寫真をわずかな枚數から學習させる「Dreambooth」という技術が開発され、これも話題を呼んだ。ただし、Dreamboothでは、巨大なGPUメモリが必要になり、個人ユーザーが趣味の範囲で買えるGPUでは事実上実行不可能なのがネックとされていた。[Stable Diffusion在生成個人照片通常是有缺陷的，但「DreamBooth」的開發允許從少量以寵物或朋友的照片中進行訓練，引起了相當大的轟動。然而，缺點是DreamBooth需要大量的GPU內存，使得它在個人用戶在業餘價格範圍內能夠負擔得起的GPU上運行實際上是不可行的。]

[5] [5]
Andy Baio. Invasive Diffusion: How one unwilling illustrator found herself turned into an AI model. Waxy. 2022-11-01 [2022-11-04]. （原始內容存檔於2022-11-01）（英語）.

[1]

[2]

[3]

[4]

[5]