GPT-3

生成型預訓練變換模型 3
Generative Pre-trained Transformer 3（GPT-3）
原作者	OpenAI
首次發布	2020年6月11日，4年前 (beta)
當前版本	2023年2月13日，20個月前
源代碼庫	https://github.com/openai/gpt-3
前任	GPT-2
繼任	GPT-4
類型	大型語言模型; 基於轉換器的生成式預訓練模型; 基礎模型;
許可協議	專有
網站	openai.com/blog/openai-api

生成型預訓練變換模型 3 （英語：Generative Pre-trained Transformer 3，簡稱 GPT-3）是一個自迴歸語言模型，目的是為了使用深度學習生成人類可以理解的自然語言^[1]。GPT-3是由在舊金山的人工智能公司OpenAI訓練與開發，模型設計基於谷歌開發的 Transformer 語言模型。GPT-3的神經網路包含1750億個參數，需要700GB來存儲，為有史以來參數最多的神經網路模型^[2]。該模型在許多任務上展示了強大的零樣本和少樣本的能力。^[3]

Quick Facts 原作者, 首次發布 ...

Close

OpenAI於2020年5月發表GPT-3的論文，在次月為少量公司與開發人團釋出應用程式介面的測試版。微軟在2020年9月22日宣布取得了GPT-3的獨家授權^[4]。

GPT-3被認為可寫出人類無法與電腦區別的文章與字串，GPT-3原始論文的作者們警告了GPT-3有可能對於社會的負面影響，比如利用製造假新聞的可能性。英國《衛報》即使用GPT-3生成了一個關於人工智慧對人類無威脅的評論專欄^[5]。李開復稱卷積神經網路與GPT-3為人工智能重要的改善，兩者皆是模型加海量數據的成果^[6]。

背景

據《經濟學人》報道，改進的算法、強大的計算機和數字化數據的增加推動了機器學習的革命，2010 年代的新技術導致「任務的快速改進」，包括操縱語言。^[7]

訓練和能力

在2020年5月28日，由OpenAI團隊中31名工程師和研究人員撰寫的arXiv預印本介紹了第三代「最先進的語言模型」——GPT-3的開發情況。^[8]該團隊相對於GPT-2，^[9] 將GPT-3的容量增加了兩個數量級以上，使其成為迄今為止最大的非稀疏語言模型。^[10]^:14^[11]

斯坦福大學的研究發現，GPT3已經可以解決70%的心智理論任務，相當於7歲兒童；至於GPT3.5（ChatGPT的同源模型），更是解決了93%的任務，心智相當於9歲兒童。但這並不意味着，ChatGPT就真正具備了心智理論。可能它即使不被設計到AI系統中，也可以作為「副產品」通過訓練得到。因此，相比探究GPT-3.5是不是真的有了心智還是像有心智，更需要反思的是這些測試本身。^[12] ^[13]

迭代版本

GPT-3.5

2022年3月1日，OpenAI在其API中提供了新版本的GPT-3和Codex，名稱為「text-davinci-003」和「code-davinci-002」，具有編輯和插入的功能。^[14]

GPT-3.5 Turbo

參見

參考資料

[1]
Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Language Models are Few-Shot Learners. 2020-07-22. arXiv:2005.14165 .
[2]
Ray, Tiernan. OpenAI’s gigantic GPT-3 hints at the limits of language models for AI. ZDNet. 2020-06-01 [2020-07-31]. （原始內容存檔於2020-06-01）.
[3]
Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (PDF): 12. 2018-06-11 [2020-07-31]. （原始內容存檔 (PDF)於2021-01-26）.
[4]
Hao, Karen. OpenAI is giving Microsoft exclusive access to its GPT-3 language model. MIT Technology Review. 2020-09-23 [2020-09-25]. （原始內容存檔於2021-02-05）（英語）. The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI’s other models and receive its output. Only Microsoft, however, will have access to GPT-3’s underlying code, allowing it to embed, repurpose, and modify the model as it pleases.
[5]
GPT-3. A robot wrote this entire article. Are you scared yet, human?. The Guardian. 2020-09-08 [2020-09-15]. ISSN 0261-3077. （原始內容存檔於2021-02-04）（英國英語）.
[6]
Lee, Kai-fu. 李开复对话MIT彭特兰：AI不是单打独斗，应避免AI冷战. 2020-10-09 [2020-10-17]. （原始內容存檔於2024-10-04）.
[7]
An understanding of AI's limitations is starting to sink in. The Economist. 2020-06-11 [2020-07-31]. ISSN 0013-0613. （原始內容存檔於2020-07-31）.
[8]
Sagar, Ram. OpenAI Releases GPT-3, The Largest Model So Far. Analytics India Magazine. 2020-06-03 [2020-07-31]. （原始內容存檔於2020-08-04）.
[9]
Language Models are Unsupervised Multitask Learners (PDF). openai.com. [2019-12-04]. （原始內容存檔 (PDF)於2019-12-12）. GPT-2, is a 1.5B parameter Transformer
[10]
Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. , 編. Language Models are Few-Shot Learners (PDF). Advances in Neural Information Processing Systems (Curran Associates, Inc.). Dec 2020, 33: 1877–1901 [2023-02-16]. （原始內容存檔 (PDF)於2023-05-25）.
[11]
Shead, Sam. Why everyone is talking about the A.I. text generator released by an Elon Musk-backed lab. CNBC. 2020-07-23 [2020-07-31]. （原始內容存檔於2020-07-30）. Four preprints were released between May 28 and July 22, 2020.
[12]
Theory of Mind May Have Spontaneously Emerged in Large Language Models, Michal Kosinski. [2023-02-16]. （原始內容存檔於2023-03-06）.
↑
ChatGPT背后模型被证实具有人类心智，学术圈轰动. [2023-02-16]. （原始內容存檔於2023-03-06）.
[14]
New GPT-3 Capabilities: Edit & Insert. OpenAI. 2022-03-15 [2023-01-13]. （原始內容存檔於2023-01-13）（英語）.

外部連結

官方網站
Playground for GPT3.5 and Codex （頁面存檔備份，存於網際網路檔案館）

[arXiv_Brown_20200722-1] [1]
Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Language Models are Few-Shot Learners. 2020-07-22. arXiv:2005.14165 .

[ZDNet_Tiernan_20200601-2] [2]
Ray, Tiernan. OpenAI’s gigantic GPT-3 hints at the limits of language models for AI. ZDNet. 2020-06-01 [2020-07-31]. （原始內容存檔於2020-06-01）.

[OpenAI_Radford_20200611-3] [3]
Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (PDF): 12. 2018-06-11 [2020-07-31]. （原始內容存檔 (PDF)於2021-01-26）.

[4] [4]
Hao, Karen. OpenAI is giving Microsoft exclusive access to its GPT-3 language model. MIT Technology Review. 2020-09-23 [2020-09-25]. （原始內容存檔於2021-02-05）（英語）. The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI’s other models and receive its output. Only Microsoft, however, will have access to GPT-3’s underlying code, allowing it to embed, repurpose, and modify the model as it pleases.

[5] [5]
GPT-3. A robot wrote this entire article. Are you scared yet, human?. The Guardian. 2020-09-08 [2020-09-15]. ISSN 0261-3077. （原始內容存檔於2021-02-04）（英國英語）.

[6] [6]
Lee, Kai-fu. 李开复对话MIT彭特兰：AI不是单打独斗，应避免AI冷战. 2020-10-09 [2020-10-17]. （原始內容存檔於2024-10-04）.

[theeconomist_20200611-7] [7]
An understanding of AI's limitations is starting to sink in. The Economist. 2020-06-11 [2020-07-31]. ISSN 0013-0613. （原始內容存檔於2020-07-31）.

[analyticsindiamag_Sagar_20200603-8] [8]
Sagar, Ram. OpenAI Releases GPT-3, The Largest Model So Far. Analytics India Magazine. 2020-06-03 [2020-07-31]. （原始內容存檔於2020-08-04）.

[gpt2-with-quote-9] [9]
Language Models are Unsupervised Multitask Learners (PDF). openai.com. [2019-12-04]. （原始內容存檔 (PDF)於2019-12-12）. GPT-2, is a 1.5B parameter Transformer

[neurips_Brown_202012-10] [10]
Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. , 編. Language Models are Few-Shot Learners (PDF). Advances in Neural Information Processing Systems (Curran Associates, Inc.). Dec 2020, 33: 1877–1901 [2023-02-16]. （原始內容存檔 (PDF)於2023-05-25）.

[CNBC_Shead_20200723-11] [11]
Shead, Sam. Why everyone is talking about the A.I. text generator released by an Elon Musk-backed lab. CNBC. 2020-07-23 [2020-07-31]. （原始內容存檔於2020-07-30）. Four preprints were released between May 28 and July 22, 2020.

[Theory_of_Mind-12] [12]
Theory of Mind May Have Spontaneously Emerged in Large Language Models, Michal Kosinski. [2023-02-16]. （原始內容存檔於2023-03-06）.

[3-13] 
ChatGPT背后模型被证实具有人类心智，学术圈轰动. [2023-02-16]. （原始內容存檔於2023-03-06）.

[14] [14]
New GPT-3 Capabilities: Edit & Insert. OpenAI. 2022-03-15 [2023-01-13]. （原始內容存檔於2023-01-13）（英語）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]