生成型预训练变换模型 3 (英语:Generative Pre-trained Transformer 3,简称 GPT-3)是一个自回归语言模型,目的是为了使用深度学习生成人类可以理解的自然语言[1]。GPT-3是由在旧金山人工智慧公司OpenAI训练与开发,模型设计基于谷歌开发的 Transformer 语言模型。GPT-3的神经网络包含1750亿个参数,需要700GB来存储,为有史以来参数最多的神经网络模型[2]。该模型在许多任务上展示了强大的零样本少样本的能力。[3]

Quick Facts 原作者, 首次发布 ...
生成型预训练变换模型 3
Generative Pre-trained Transformer 3(GPT-3)
原作者OpenAI
首次发布2020年6月11日,​4年前​(2020-06-11 (beta)
当前版本2023年2月13日,​20个月前​(2023-02-13
原始码库https://github.com/openai/gpt-3
前任GPT-2
继任GPT-4
类型
许可协议专有
网站openai.com/blog/openai-api
Close

OpenAI于2020年5月发表GPT-3的论文,在次月为少量公司与开发人团发布应用程序接口的测试版。微软在2020年9月22日宣布获取了GPT-3的独家授权[4]

GPT-3被认为可写出人类无法与电脑区别的文章与字符串,GPT-3原始论文的作者们警告了GPT-3有可能对于社会的负面影响,比如利用制造假新闻的可能性。英国《卫报》即使用GPT-3生成了一个关于人工智慧对人类无威胁的评论专栏[5]李开复卷积神经网络与GPT-3为人工智慧重要的改善,两者皆是模型加海量数据的成果[6]

背景

据《经济学人》报道,改进的算法、强大的电脑和数码化数据的增加推动了机器学习的革命,2010 年代的新技术导致“任务的快速改进”,包括操纵语言。[7]

训练和能力

在2020年5月28日,由OpenAI团队中31名工程师和研究人员撰写的arXiv预印本介绍了第三代“最先进的语言模型”——GPT-3的开发情况。[8]该团队相对于GPT-2,[9] 将GPT-3的容量增加了两个数量级以上,使其成为迄今为止最大的非稀疏语言模型。[10]:14[11]

斯坦福大学的研究发现,GPT3已经可以解决70%的心智理论任务,相当于7岁儿童;至于GPT3.5(ChatGPT的同源模型),更是解决了93%的任务,心智相当于9岁儿童。但这并不意味着,ChatGPT就真正具备了心智理论。可能它即使不被设计到AI系统中,也可以作为“副产品”通过训练得到。 因此,相比探究GPT-3.5是不是真的有了心智还是像有心智,更需要反思的是这些测试本身。[12] [13]

迭代版本

GPT-3.5

2022年3月1日,OpenAI在其API中提供了新版本的GPT-3和Codex,名称为“text-davinci-003”和“code-davinci-002”,具有编辑和插入的功能 。[14]

GPT-3.5 Turbo

参见

参考资料

外部链接

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.