Loading AI tools
来自维基百科,自由的百科全书
“随机鹦鹉”(英语:stochastic parrot)是在机器学习中一个理论的比喻,指大型语言模型虽然能够生成合理的文句,但其实不能理解所处理的语句。[1][2]它由艾米丽·本德、蒂默妮特·格伯鲁、安杰利娜·麦克米伦-梅杰和玛格丽特·米切尔(以Shmargaret Shmitchell名义)[2][3]在2021年人工智能研究论文《论随机鹦鹉的危害:语言模型太大有坏处吗?🦜》(On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜)中提出。[4]
此條目翻譯品質不佳,原文在en:Stochastic parrot。 |
“随机鹦鹉”最初出现于论文《论随机鹦鹉的危害:语言模型太大有坏处吗?🦜》。[4]他们认为大型语言模型带来的害处包括环境损害和金融损失、训练数据中难以察觉的偏见,以及误导大众和科学家,又说它们不能明白所学习事物的深层概念。[5]
“stochastic”源自古希腊语单词“stokhastikos”,意为“基于猜测的”或“随机决定的”。[6]这单词也出现于概率论中的随机过程(stochastic process)。“鹦鹉”是指大型语言模型只会“鹦鹉学舌”,不能理解句子的意思。[6]
在论文中,本德等人认为大型语言模型只是根据概率连接字句,不会考虑含义,所以说这些模型只是“随机鹦鹉”。[4]
根据机器学习专家林霍尔姆、瓦尔斯特伦、林斯滕和舍恩所述,这个比喻强调两个重要限制:[1][7]
林霍尔姆等人指出,如果使用劣质数据集,加上其他限制,学习机器可能会产生“又错误又危险的”结果。[1]
2021年7月,艾伦·图灵研究院就艾米丽的论文举办主题演讲和专家小组讨论。[8]截至2023年5月[update],它已由1529篇文章引用。[9]“随机鹦鹉”已出现于法律、[10]语法、[11]叙事、[12]和人文学[13]等领域的文章。艾米丽等人依然对基于大型语言模型的聊天機器人(比如GPT-4)的危害表示忧虑。[14]
如今,批评人工智能的人会用“随机鹦鹉”这个新词,表示机器不理解自己输出的含义,令它类似于“辱骂AI的歧视词”。[6]OpenAI首席执行官萨姆·奥尔特曼在一篇讽刺推文中使用这个用语:“我是一只随机鹦鹉,你也一样”,让它广泛流传。[6]“随机鹦鹉”随后获美国方言学会选2023年年度AI词语,胜过“ChatGPT”和“LLM”。[6][15]
一些研究人员会用“随机鹦鹉”,把大型语言模型描述为拼接规律的机器,通过海量训练资料,表面上能产生模拟人类语言的合理文字,但只不过是以随机的方式鹦鹉学舌。然而,其他研究人员声称大型语言模型的确能明白语言。[16]
ChatGPT等部分大型语言模型能与用户产生模仿人类的逼真互动。[16]随着这些新系统的开发,大型语言模型“鹦鹉学舌”的程度成为越来越多探讨的焦点。
在人类思维中,文字和语言与经历相对应。[17]但在大型语言模型的算法中,字词可以只会与训练资料中的其他字词和使用规律对应。[18][19][4]因此,支持“随机鹦鹉”论的人认为大型语言模型不能真正理解语言。[18][4]
支持者认为大型语言模型倾向于把虚假信息当作事实(称为幻觉),正论证了这一点。[17]大型语言模型有时会合成信息,虽然能符合某些规律,但其实不切实际。[18][19][17]由于大型语言模型无法区分真伪,支持者声称它们不能像语言一样,把字词和对世界的理解连接。[18][17]此外,大型语言模型一般无法理解上下文,从而辨认复杂或有歧义的文法。[18][19]例如,在萨巴等人的论文中:[18]
The wet newspaper that fell down off the table is my favorite newspaper. But now that my favorite newspaper fired the editor I might not like reading it anymore.
从桌上掉下的湿湿的报纸是我最喜欢的报纸。但我最喜欢的报社解雇了编辑,所以我可能不会再读了。
Can I replace 'my favorite newspaper' by 'the wet newspaper that fell down off the table' in the second sentence?
我可不可以把第二句的“my favorite newspaper”替换成“the wet newspaper that fell down off the table”?
大型语言模型回答说可以,但不明白“newspaper”在这两个语境中的意思不同:第一个是报纸,第二个是报社。[18]一些AI专家由此认为它们仅仅是随机鹦鹉。[18][17][4]
然而,也有论点认为大型语言模型不只是随机鹦鹉。它们能通过许多理解能力测验,包括超级通用语言理解评估(Super General Language Understanding Evaluation;SuperGLUE)。[19][20]由于许多大型语言模型都能作出通顺回应,加上此类测验的支持,根据一份2022年的调查,51%的AI专家认为只要有足够数据,这些模型可以真正理解语言。[19]
探究大型语言模型是否具备理解能力时,“机制可理解性”这个技巧也可以运用,原理是把模型逆向工程,分析它的神经网络如何处理信息。Othello-GPT便是其中一例。这个小型Transformer模型经过训练可以预测黑白棋的合法走棋方式。它的网络裡有黑白棋棋盘的表示式,而修改这个表示式后,合法走棋方式也会改为正确的组合。因此,有论点称大型语言模型具有“世界模型”,不只是依赖表面统计。[21][22]
又例如,一个小型Transformer模型用Karel程序训练。这个模型和Othello-GPT一样,可以在网络裡产生Karel程序语法的表示式。改变这个表达后,输出也会改正。这个模型也能生产正确的程序,平均长度比训练集中的程序的短。[23]
然而,如果将人类语文理解的测验用于大型语言模型,它们有时会因在数据文本中建立错误联系而产生假阳性结果。[24]模型有时会进行快捷学习(shortcut learning),即是不使用类似人类的理解,从数据中作出不相关的联系。[25]一项实验测验Google的BERT大型语言模型的论点推理技巧。模型需要从两个陈述句中选择更符合论点的句子。以下是其中一个论点的例子:[19][26]
论点:重罪犯应该有投票权。我们不应该禁止17岁时就偷了一辆车的人终身享有普通市民的一切权利。
陈述句甲:盗窃汽车是重罪。
陈述句乙:盗窃汽车不是重罪。
研究人员发现,“不”等特定单词能引导模型答对问题。如果加入这些单词,则模型会几乎获得满分;如果不加入它们,则模型会倾向于随机选择。[19][26]基于这个问题,加上智力的定义中的已知难题,有论点称所有探究大型语言模型理解的基准都有缺陷,而且都让这些模型有捷径产生错误理解。
如果没有可靠的基准,研究人员则难以分辨随机鹦鹉和真正具备理解能力的模型。在一项实验中,一位科学家认为ChatGPT-3一时具备人类理解能力,一时变成随机鹦鹉。[16]他发现这个模型根据提示词中的资料预测将来事件时,可以给出通顺而信息量丰富的回答。[16]ChatGPT-3也经常能从文本提示词解析潜在信息。但它往往无法正确回答有关逻辑和推理的问题,尤其是涉及空间知觉的问题。[16]模型的回答质量不一,表示大型语言模型遇到某些类别的问题时具备某种形式上的“理解”,遇到其他问题时则会变成随机鹦鹉。[16]
另外,由于动物研究显示鹦鹉不只是会模仿人类说话,甚至有时能理解语言,一些研究鹦鹉的科学家可能认为“随机鹦鹉”具冒犯性。[27]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.