DreamBooth是一個深度學習模型,用於微調現有的文生圖模型,由Google Research波士頓大學的研究人員於2022年開發。最初利用谷歌開發的的Imagen文生圖模型開發,DreamBooth可以應用到其他文生圖模型,在使用指定主題的三到五張圖像進行演算、訓練後,可以讓模型產生更精細和個性化的輸出圖像。[1][2][3]

Thumb
演示使用DreamBooth微調Stable Diffusion1.5版本的擴散模型,使用從維基共享資源Category:Jimmy Wales分類獲得的訓練數據。此處描繪的是通過AI生成的維基百科創始人吉米·威爾斯在健身房進行臥推練習的僞圖像。

技術

預先訓練的文生圖擴散模型,雖然通常能夠提供多種不同的圖像輸出,但缺乏生成不太知名的主題圖像所需的特異性,並且在不同情況和背景下呈現已知主題的能力有限。[1] 運行DreamBooth來微調模型的過程首先需要輸入一小套描繪某一種特定主題的圖像,一般三到五張圖像就足夠了,這些圖像與包含主題所屬類別名稱的提示詞​(英語配對,加上一個獨特的標識符(例如:a photograph of a [Nissan R34 GTR] car,用car作爲類別);同時,一個「特定類別的先驗保存損失」(class-specific prior preservation loss)來讓模型在已經訓練好的類別上產生不同的主題實例。[1] 從一組輸入圖像中提取的一對低解像度和高解像度的圖像被用來微調超解像度組件,從而保留主題的微小細節。[1]

用法

DreamBooth可以用來對Stable Diffusion等模型進行微調,通過這種用例它能夠緩解Stable Diffusion無法生成特定個人圖像的常見缺陷。[4] 然而,這樣的用例是相當耗費VRAM的,因此對業餘用戶來說是成本高昂的。[4] 有人對使用DreamBooth來訓練模仿與人類藝術家的特定藝術風格的道德問題表示關切。[5]

參考文獻

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.