生成式人工智慧
AI capable of generating content in response to a prompt 来自维基百科,自由的百科全书
生成式人工智慧(或稱生成式AI、產生式AI;英語:Generative artificial intelligence、Generative AI、GenAI、GAI)是一種人工智慧系統,能夠產生文字、圖像或其他媒體以回應提示工程[1][2],比如ChatGPT。產生模型學習輸入數據的模式和結構,然後產生與訓練數據相似但具有一定程度新穎性的新內容,而不僅僅是分類或預測數據[3]。用於處理生成式人工智慧的最突出框架包括生成對抗網路和基於轉換器的生成式預訓練模型[4][5]。

基於Transformer模型的深度神經網路,特別是大型語言模型 (LLM) 的改進,使得2020年代初期出現了生成式人工智慧系統的人工智慧熱潮。其中包括ChatGPT、Copilot、Gemini和LLaMA等聊天機器人;Stable Diffusion、Midjourney和DALL-E等文字到圖像人工智慧影像生成系統;以及Sora等文字轉影片生成系統。[6][7][8][9]OpenAI、Anthropic、微軟、Google和百度等公司以及許多規模較小的公司都已開發出生成式人工智慧模型。[1][10][11]
生成式人工智慧在藝術、寫作[12]、軟體開發、醫療保健、金融、遊戲、客戶服務[13]、行銷[14]和時尚[15]等各行各業都有潛在的應用。 然而,也有人擔心產生式人工智慧可能會被濫用,包括肆無忌憚地使用有著作權的材料來訓練生成式人工智慧,以及製造假新聞和深偽技術來欺騙和操縱人們,以及大規模取代人類工作,目前正在討論法律規範,包括歐盟的《人工智慧法案》(英語:Artificial Intelligence Act, AI Act)。[16][17]與有效加速主義(英語:effective Accelerationism, e/acc)等科技思想的關係也被提出。[18]
歷史
自創立以來,該領域的研究人員就人類心智的本質以及創造具有類似人類智慧型的人工生物的後果提出了哲學和倫理上的爭論;自古以來,神話、小說和哲學都曾探討過這些問題。[19] 自動化藝術的概念至少可以追溯到古希臘文明的自動機,在古希臘文明中,代達洛斯 (Daedalus) 和亞歷山大的海倫 (Hero of Alexandria) 等發明家被描述為設計出能夠書寫文字、發出聲音和演奏音樂的機器。[20][21]創造性自動化的傳統在歷史上蓬勃發展,以19世紀初瑞士工程師亨利·梅拉代(Henri Maillardet) 設計的梅拉代自動機(Maillardet Automaton)就是一例。[22]自俄羅斯數學家安德烈·馬爾可夫 (Andrey Markov) 在20世紀初提出馬爾可夫鏈以來,馬爾可夫鏈長期以來一直被用來建立自然語言模型。[23][24]馬爾可夫在1906年發表了第一篇相關論文,並使用馬爾可夫鏈分析了小說《葉甫蓋尼·奧涅金》 (Eugeny Onegin) 中元音和輔音的模式。馬爾可夫鏈一旦在文字語料庫上學習完成,就可以用來當作概率文字產生器。[25][26]
人工智慧學術學科是在1956年於達特茅斯學院 (Dartmouth College) 舉辦的達特矛斯會議上成立的,並在此後的幾十年間經歷了數次進步與樂觀的浪潮。[27]人工智慧研究始於1950年代,作品包括 Computing Machinery and Intelligence (1950) 和1956年Dartmouth Summer Research Project on AI。自1950年代起,藝術家和研究人員開始使用人工智慧創作藝術作品。到了1970年代早期,藝術家哈羅德·科恩開始創作並展出由AARON所創作的生成式人工智慧作品,AARON是科恩為了生成繪畫而創作的電腦程式。[28]

自從機器學習領域誕生以來,它既使用了判別模型也使用了生成模型來建模和預測資料。自2000年代後期以來,深度學習的出現促進了影像分類、語音辨識、自然語言處理等任務的進展與研究。在這個時代,神經網路通常被作為判別模型進行訓練,由於生成建模的難度,這導致了它們在生成模型建模方面的應用受限。[29]
2014年,變分自編碼器和生成對抗網路等進步產生了第一個實用的深度神經網路,該網路能夠針對圖像等複雜數據學習生成模型(而非判別模型)。這些深度生成模型是第一個不僅輸出影像的類別標籤而且輸出整個影像的模型。
2017年,Transformer網路使生成式模型相較於較舊的長短期記憶 (Long-Short Term Memory) 模型有了進步,[30]從而在2018年推出了第一個基於轉換器的生成式預訓練模型 (GPT),即GPT-1。隨後在2019年,GPT-2展示了作為基礎模型在無監督的情況下泛化到許多不同任務的能力。[31]
在此期間引入的新生成模型允許使用無監督學習或半監督學習來訓練大型神經網路,而不是典型的判別模型的監督學習。無監督學習消除了人類手動標籤資料的需要,允許訓練更大的網路。[32]

2020年3月,由一位匿名的麻省理工學院研究員所創造的15.ai,是一個免費的網路應用程式,可以使用最少的訓練資料,產生令人信服的角色語音。 [33]該平台被認為是第一個在網路迷因和內容創作中普及AI語音克隆(音訊深度偽造)的主流服務,影響了語音AI技術的後續發展。[34][35]
2022年末,ChatGPT的公開發佈徹底改變了生成式人工智慧在通用文字任務中的可及性和應用。[36]該系統能夠進行自然對話、產生創意內容、協助編碼以及執行各種分析任務,吸引了全球的關注,並引發了有關人工智慧對工作、教育和創造力的潛在影響的廣泛討論。[37]
2023年3月,GPT-4的發布代表著生成式人工智慧能力的又一次躍進。來自微軟研究院的一個團隊有爭議地認為,它 「可以合理地被視為通用人工智慧(AGI)系統的早期版本(但仍不完整)」。[38]然而,這項評估受到其他學者的質疑,他們認為截至2023年,生成式人工智慧「仍遠未達到「一般人類智慧型」的基準」。[39]2023年晚些時候,Meta發表了ImageBind,這是一個結合了多種模式的人工智慧模型,包括文字、影像、視訊、熱資料、3D資料、音訊和動作,為更身歷其境的生成式人工智慧應用鋪路。[40]
2023年12月,谷歌 (Google) 推出Gemini,這是一種多模式AI模型,共有四種版本: Ultra、Pro、Flash 和 Nano。[41]該公司將Gemini Pro整合到其Bard聊天機器人中,並宣佈計劃推出由更大的 Gemini Ultra 機型驅動的「Bard Advanced」。[42]2024年2月,谷歌將 Bard和Duet AI統一為Gemini品牌,在Android上推出行動應用程式,並將服務整合至iOS上的Google應用程式。[43]
2024年3月,Anthropic發布了Claude 3系列大型語言模型,其中包括Claude 3 Haiku、Sonnet和Opus。[44]這些模型在各種基準測試中都表現出了顯著的能力提升,其中Claude 3 Opus的表現明顯優於OpenAI和Google的領先模型。[45] 2024年6月,Anthropic發布了Claude 3.5 Sonnet,與更大的Claude 3 Opus相比,其效能有所提升,特別是在編碼、多步驟工作流程和圖像分析等領域。[46]

根據人工智慧和分析軟體公司SAS和科爾曼·帕克斯研究公司 (Coleman Parkes Research) 的調查,中國已經成為生成式人工智慧應用的全球領導者,83%的中國受訪者使用該技術,超過54%的全球平均水平和65%的美國比率。中國在該領域的智慧型財產發展進一步證明了這一領導地位,一份聯合國報告顯示,從2014年到2023年,中國實體申請了超過38,000項生成式人工智慧專利,在專利申請量上大幅超越美國。[47]
模態
生成式人工智慧系統是通過將無監督或自監督機器學習應用於資料集來構建的。生成式人工智慧系統的功能取決於所使用的資料集的模式或類型。生成式人工智慧可以是單模態的,也可以是多模態的;單模態系統僅接受一種類型的輸入,而多模態系統可以接受多種類型的輸入。[48]例如,OpenAI 的 GPT-4 的一種版本接受文字和圖像輸入。[49]
基於單詞或單詞標記訓練的生成式AI系統包括GPT-3、LaMDA、LLaMA、BLOOM、GPT-4等(請參閱大型語言模型列表)。 它們能夠進行自然語言處理、機器翻譯和自然語言生成,並且可以用作其他任務的基礎模型。

a photograph of an astronaut riding a horse
」生成的圖像製作高品質的視覺藝術是生成式人工智慧的一個突出應用。[50]
歌詞的音訊深度偽造已經產生,例如歌曲Savages就使用AI來模仿饒舌歌手傑斯 (Jay-Z) 的歌聲。音樂創作人的樂器和歌詞擁有著作權,但他們的聲音尚未受到再生人工智慧的保護,這引起了藝術家是否應該從音訊deepfakes中取得版稅的爭論。[51]
Borneo wildlife on the Kinabatangan River
以註解視訊為基礎訓練的生成式人工智慧可以產生時間上連貫、細緻且逼真的視訊片段。範例包括OpenAI的Sora、Runway 的Gen-1和Gen-2[53]以及Meta Platforms的Make-A-Video。[54]
法律與法規
在美國,包括OpenAI、Alphabet和Meta在內的一群公司在2023年7月與拜登政府簽署了一份自願協定,為人工智慧產生的內容加上浮水印。[55]2023年10月,第14110號行政命令應用《國防生產法》,要求所有美國公司在訓練某些高影響力的AI模型時,必須向聯邦政府報告資訊。[56][57]
在歐盟,建議中的《人工智慧法》包括要求披露用於訓練生成式人工智慧系統的受著作權保護材料,並對任何人工智慧生成的輸出內容進行標示。[58][59]
在中國,國家網信辦推出的《人工智慧生成服務管理暫行辦法》規範任何面向公眾的人工智慧生成。它包括對生成的圖像或影片進行浮水印的要求、對訓練數據和標籤品質的規定、對個人資料收集的限制,以及生成式人工智慧必須「堅持社會主義核心價值觀」的指導方針。[60][61]
ChatGPT和Midjourney等生成式人工智慧系統是在大型、公開可用的資料集上進行訓練的,這些資料集包含了受著作權保護的作品。AI 開發者認為這種訓練受到合理使用的保護,而著作權人則認為這侵犯了他們的權利。[62]
合理使用訓練的支持者認為,這是一種轉換性的使用,並不涉及向大眾提供著作權作品的複本。批評者則認為,像Midjourney之類的圖像產生器可以製造出幾乎相同的某些著作權圖像副本,而且產生式人工智慧程式會與其訓練的內容競爭。
另一個問題是人工智慧產生的作品是否有資格獲得著作權保護。美國著作權局已經裁定,人工智慧在沒有人為投入的情況下所創造的作品不能取得著作權,因為這些作品缺乏人為作者的身分。[63]不過,該局也已開始接受公眾意見,以決定這些規則是否需要針對生成式人工智慧加以改進。[64]
關注
生成式人工智慧的發展已引起政府、企業和個人的關注,導致抗議、法律行動、要求暫停人工智慧實驗,以及多國政府的行動。在2023年7月聯合國安全理事會的簡報會中,聯合國秘書長安東尼奧·古特雷斯 (António Guterres) 表示「生成式人工智慧在規模上具有巨大的善惡潛力」,人工智慧可能會「為全球發展注入動力」,並在2030年前為全球經濟貢獻$10到$15兆美元,但其惡意使用「可能會造成可怕程度的死亡與破壞、廣泛的創傷,以及無法想像規模的深度心理傷害」。[65]

從人工智慧發展的早期開始,ELIZA的創造者約瑟夫·維森鮑姆 (Joseph Weizenbaum) 及其他人士就一直在爭論,考慮到電腦與人類之間的差異,以及定量計算與定性、價值判斷之間的差異,那些可以由電腦完成的任務實際上是否應該由電腦來完成。[67] 2023年4月,據報導,圖像生成AI已導致中國70%的電子遊戲插畫師職位流失。[68][69] 2023年7月,語音生成AI的發展促成了2023年好萊塢勞資糾紛。美國電影演員協會 (Screen Actors Guild) 主席法蘭·卓雪 (Fran Drescher) 在2023年SAG-AFTRA大罷工期間宣稱,「人工智慧對創意專業構成生存威脅」。 [70] 語音生成AI已被視為對配音演員領域的潛在挑戰。[71][72]
AI與全球代表性不足族群的就業問題之間的交集,仍然是一個重要的層面。雖然AI有望提升效率並獲得技能,但這些族群對於工作轉移和有偏見的招募程式的憂慮仍然存在,快公司 (Fast Company) 的調查也概述了這一點。為了善用人工智慧創造更公平的社會,前瞻性的步驟包括減少偏見、提倡透明度、尊重隱私權與同意權,以及接納多元團隊與道德考量。策略包括將政策重點轉移到法規、包容性設計,以及教育的個人化教學潛力上,以達到利益最大化,傷害最小化。[73]
生成式AI模型可以反映並放大基礎資料中存在的任何文化偏誤。例如,語言模型可能會假設醫生和法官是男性,而秘書或護士是女性,如果這些偏見在訓練資料中很常見的話。[74] 同樣地,如果在有種族偏見的資料集上進行訓練,以「一張 CEO 的相片」為文字提示的圖像模型可能會不成比例地產生白人男性CEO的圖像。[75]我們嘗試了許多減輕偏差的方法,例如改變輸入提示和重新加權訓練資料。[76]
深偽技術 (Deepfakes) (「深度學習」"deep learning" 與「偽造」"fake"的混成詞[77]) 是人工智慧產生的媒體,利用類神經網路,將現有圖像或視訊中的人物換成其他人的肖像。[78] 深偽技術因其在深偽技術名流色情影片、復仇式色情、假新聞、釣魚式惡作劇、健康謠言、金融詐騙和秘密的外國選舉操控干擾中的使用而引起了廣泛的關注和關注。[79][80][81][82][83][84][85] 這引起了業界和政府的回應,以偵測和限制其使用。[86][87]
2023年7月,事實檢查公司Logically發現,流行的生成式人工智慧模型Midjourney、DALL-E 2和Stable Diffusion在受到提示時會產生似是而非的假訊息圖像,例如美國選舉操控舞弊和穆斯林婦女支援印度的印度教民族主義印度人民黨的圖像。[88][89]
2024年4月,一篇論文建議使用區塊鏈(分散式賬本技術)來促進「人工智慧開發與使用的透明度、可驗證性與分散性」。[90]
有使用者濫用軟體,以名人、公職人員和其他知名人士的語音風格來產生具爭議性的聲明,這引起了人們對語音生成式人工智慧的道德憂慮。[91][92][93][94][95][96]作為回應ElevenLabs等公司已聲明,他們將通過保障措施和身分驗證,努力減少可能的濫用情況。[97]
人工智慧產生的音樂也衍生出關注與狂熱。用來克隆聲音的軟體也被用在知名音樂家的聲音上,創造出模仿他們聲音的歌曲,獲得極高的知名度與批評。[98][99][100]類似的技術也被用來創作已洩露或尚未發行的歌曲的改良品質或完整版本。[101]
生成式人工智慧也被用來創造新的數位藝人個性,其中有些藝人受到足夠的關注,並獲得主要唱片公司的唱片合約。[102]這些虛擬藝人的開發者也因為他們的人格化程式而面對不少批評,包括「非人化」藝術形式的反彈,以及創造出對觀眾有不切實際或不道德訴求的藝人。[103]
生成式人工智慧創造逼真虛假內容的能力已被許多類型的網路犯罪所利用,包括網路釣魚式攻擊。[104]前Google點擊欺詐主管Shuman Ghosemajumder曾預言,雖然深偽技術影片最初在媒體上引起轟動,但很快就會變得司空見慣,也因此變得更危險。[105] 此外,大型語言模型和其他形式的文字生成式人工智慧已廣泛地在電子商務網站上製造虛假評論,以提高評價。[106]網路罪犯已建立專注於詐欺的大型語言模型,包括WormGPT和FraudGPT。[107]
最近在2023年所做的研究顯示,生成式人工智慧存在弱點,可被犯罪分子操控,繞過道德保障措施擷取有害資訊。該研究提出了在ChatGPT上完成的攻擊範例,包括越獄和反向心理學。此外,惡意個人可以使用ChatGPT進行社會工程學攻擊和網路釣魚式攻擊,揭露這些技術有害的一面。[108]
訓練前沿的AI模型需要大量的運算能力。通常只有科技巨擘 (Big Tech) 才有財力進行這樣的投資。Cohere和OpenAI等小型新創公司最終分別向Google和Microsoft購買資料中心的使用權。[109]
參見
參考資料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.