生成式人工智慧

能够根据提示生成内容的人工智慧 来自维基百科,自由的百科全书

生成式人工智慧

生成式人工智慧(或称生成式AI产生式AI;英语:Generative artificial intelligenceGenerative AIGenAIGAI)是一种人工智能系统,能够产生文字、图像或其他媒体以回应提示工程[1][2],比如ChatGPT。产生模型学习输入数据的模式和结构,然后产生与训练数据相似但具有一定程度新颖性的新内容,而不仅仅是分类或预测数据[3]。用于处理生成式人工智慧的最突出框架包括生成对抗网络基于转换器的生成式预训练模型[4][5]

Thumb
太空歌剧院英语Théâtre D'opéra Spatial》(Théâtre D'opéra Spatial), 使用人工智慧生成的影像

基于Transformer模型深度神经网路,特别是大型语言模型 (LLM) 的改进,使得2020年代初期出现了生成式人工智慧系统的人工智能热潮。其中包括ChatGPTCopilotGeminiLLaMA聊天机器人Stable DiffusionMidjourneyDALL-E文本到图像人工智慧影像生成系统;以及Sora等文字转影片生成系统。[6][7][8][9]OpenAIAnthropic微软Google百度等公司以及许多规模较小的公司都已开发出生成式人工智慧模型。[1][10][11]

生成式人工智慧在艺术、写作[12]、软体开发、医疗保健、金融、游戏、客户服务[13]、行销[14]和时尚[15]等各行各业都有潜在的应用。 然而,也有人担心产生式人工智能可能会被滥用,包括肆无忌惮地使用有版权的材料来训练生成式人工智慧,以及制造假新闻深伪技术来欺骗和操纵人们,以及大规模取代人类工作,目前正在讨论法律规范,包括欧盟的《人工智能法案》(英语:Artificial Intelligence Act, AI Act)。[16][17]有效加速主义(英语:effective Accelerationism, e/acc)等科技思想的关系也被提出。[18]

历史

早期历史

自创立以来,该领域的研究人员就人类心智的本质以及创造具有类似人类智慧的人工生物的后果提出了哲学和伦理上的争论;自古以来,神话、小说哲学都曾探讨过这些问题。[19] 自动化艺术的概念至少可以追溯到古希腊文明自动机,在古希腊文明中,代达洛斯 (Daedalus) 和亚历山大的海伦 (Hero of Alexandria) 等发明家被描述为设计出能够书写文字、发出声音和演奏音乐的机器。[20][21]创造性自动化的传统在历史上蓬勃发展,以19世纪初瑞士工程师亨利·梅拉代英语Henri Maillardet(Henri Maillardet) 设计的梅拉代自动机英语Maillardet Automaton(Maillardet Automaton)就是一例。[22]自俄罗斯数学家安德烈·马尔可夫 (Andrey Markov) 在20世纪初提出马尔可夫链以来,马尔可夫链长期以来一直被用来建立自然语言模型。[23][24]马尔可夫在1906年发表了第一篇相关论文,并使用马尔可夫链分析了小说《叶甫盖尼·奥涅金》 (Eugeny Onegin) 中元音和辅音的模式。马尔可夫链一旦在文字语料库上学习完成,就可以用来当作概率文字产生器。[25][26]

人工智能学术

人工智慧学术学科是在1956年于达特茅斯学院 (Dartmouth College) 举办的达特矛斯会议上成立的,并在此后的几十年间经历了数次进步与乐观的浪潮。[27]人工智慧研究始于1950年代,作品包括 Computing Machinery and Intelligence (1950) 和1956年Dartmouth Summer Research Project on AI。自1950年代起,艺术家和研究人员开始使用人工智能创作艺术作品。到了1970年代早期,艺术家哈罗德·科恩英语Harold Cohen开始创作并展出由AARON英语AARON所创作的生成式人工智慧作品,AARON英语AARON是科恩为了生成绘画而创作的电脑程式。[28]

生成神经网路(2014-2019)

Thumb
上图:影像分类器,一个使用判别目标训练的神经网路的范例。下图:文本到图像生成模型,一个使用生成目标训练的网路的范例。

自从机器学习领域诞生以来,它既使用了判别模型也使用了生成模型来建模和预测资料。自2000年代后期以来,深度学习的出现促进了影像分类语音辨识自然语言处理等任务的进展与研究。在这个时代,神经网路通常被作为判别模型进行训练,由于生成建模的难度,这导致了它们在生成模型建模方面的应用受限。[29]

2014年,变分自编码器生成对抗网络等进步产生了第一个实用的深度神经网络,该网络能够针对图像等复杂数据学习生成模型(而非判别模型)。这些深度生成模型是第一个不仅输出影像的类别标签而且输出整个影像的模型。

2017年,Transformer网路使生成式模型相较于较旧的长短期记忆 (Long-Short Term Memory) 模型有了进步,[30]从而在2018年推出了第一个基于转换器的生成式预训练模型 (GPT),即GPT-1。随后在2019年,GPT-2展示了作为基础模型在无监督的情况下泛化到许多不同任务的能力。[31]

在此期间引入的新生成模型允许使用无监督学习半监督学习来训练大型神经网络,而不是典型的判别模型监督学习无监督学习消除了人类手动标签资料的需要,允许训练更大的网路。[32]

生成式人工智慧热潮 (2020-)

Thumb
AI产生的影像已变得更先进。

2020年3月,由一位匿名的麻省理工学院研究员所创造的15.ai,是一个免费的网络应用程序,可以使用最少的训练资料,产生令人信服的角色语音。 [33]该平台被认为是第一个在网路迷因和内容创作中普及AI语音克隆(音讯深度伪造)的主流服务,影响了语音AI技术的后续发展。[34][35]

2022年末,ChatGPT的公开发布彻底改变了生成式人工智能在通用文本任务中的可及性和应用。[36]该系统能够进行自然对话产生创意内容、协助编码以及执行各种分析任务,吸引了全球的关注,并引发了有关人工智能对工作、教育和创造力的潜在影响的广泛讨论。[37]

2023年3月,GPT-4的发布代表著生成式人工智能能力的又一次跃进。来自微软研究院的一个团队有争议地认为,它 “可以合理地被视为通用人工智慧(AGI)系统的早期版本(但仍不完整)”。[38]然而,这项评估受到其他学者的质疑,他们认为截至2023年,生成式人工智能“仍远未达到“一般人类智慧”的基准”。[39]2023年晚些时候,Meta发表了ImageBind,这是一个结合了多种模式的人工智能模型,包括文字、影像、视讯、热资料、3D资料、音讯和动作,为更身历其境的生成式人工智能应用铺路。[40]

2023年12月,谷歌 (Google) 推出Gemini,这是一种多模式AI模型,共有四种版本: Ultra、Pro、Flash 和 Nano。[41]该公司将Gemini Pro整合到其Bard聊天机器人中,并宣布计划推出由更大的 Gemini Ultra 机型驱动的“Bard Advanced”。[42]2024年2月,谷歌将 Bard和Duet AI统一为Gemini品牌,在Android上推出行动应用程式,并将服务整合至iOS上的Google应用程式。[43]

2024年3月,Anthropic发布了Claude 3系列大型语言模型,其中包括Claude 3 Haiku、Sonnet和Opus。[44]这些模型在各种基准测试中都表现出了显著的能力提升,其中Claude 3 Opus的表现明显优于OpenAIGoogle的领先模型。[45] 2024年6月,Anthropic发布了Claude 3.5 Sonnet,与更大的Claude 3 Opus相比,其性能有所提升,特别是在编码、多步骤工作流程和图像分析等领域。[46]

Thumb
AI (粉红色) 和生成式AI (绿色) 的私人投资。

根据人工智慧和分析软体公司SAS和科尔曼·帕克斯研究公司 (Coleman Parkes Research) 的调查,中国已经成为生成式人工智能应用的全球领导者,83%的中国受访者使用该技术,超过54%的全球平均水平和65%的美国比率。中国在该领域的智慧财产发展进一步证明了这一领导地位,一份联合国报告显示,从2014年到2023年,中国实体申请了超过38,000项生成式人工智能专利,在专利申请量上大幅超越美国。[47]

模态

生成式人工智能系统是通过将无监督或自监督机器学习应用于数据集来构建的。生成式人工智能系统的功能取决于所使用的数据集的模式或类型。生成式人工智能可以是单模态的,也可以是多模态的;单模态系统仅接受一种类型的输入,而多模态系统可以接受多种类型的输入。[48]例如,OpenAI 的 GPT-4 的一种版本接受文本和图像输入。[49]

文本

基于单词或单词标记训练的生成式AI系统包括GPT-3LaMDALLaMA、BLOOM、GPT-4等(请参阅大型语言模型列表)。 它们能够进行自然语言处理、机器翻译和自然语言生成,并且可以用作其他任务的基础模型

图像

Thumb
Stable Diffusion根据文本提示“a photograph of an astronaut riding a horse”生成的图像

制作高质量的视觉艺术是生成式人工智能的一个突出应用。[50]

音乐

歌词的音讯深度伪造已经产生,例如歌曲Savages就使用AI来模仿饶舌歌手杰斯 (Jay-Z) 的歌声。音乐创作人的乐器和歌词拥有版权,但他们的声音尚未受到再生人工智能的保护,这引起了艺术家是否应该从音讯deepfakes中取得版税的争论。[51]

许多AI音乐产生器已经被创造出来,可以使用文字词组、音乐类型选项以及重复小节和旋律库来产生。[52]

视讯

Sora生成的视讯,提示词Borneo wildlife on the Kinabatangan River

以注解视讯为基础训练的生成式人工智能可以产生时间上连贯、细致且逼真的视讯片段。范例包括OpenAISora、Runway 的Gen-1和Gen-2[53]以及Meta Platforms的Make-A-Video。[54]

法律与法规

美国,包括OpenAIAlphabetMeta在内的一群公司在2023年7月与拜登政府签署了一份自愿协议,为人工智能产生的内容加上水印。[55]2023年10月,第14110号行政命令应用《国防生产法》,要求所有美国公司在训练某些高影响力的AI模型时,必须向联邦政府报告资讯。[56][57]

欧盟,建议中的《人工智能法》包括要求披露用于训练生成式人工智能系统的受版权保护材料,并对任何人工智能生成的输出内容进行标示。[58][59]

中国国家网信办推出的《人工智能生成服务管理暂行办法》规范任何面向公众的人工智能生成。它包括对生成的图像或视频进行水印的要求、对训练数据和标签质量的规定、对个人资料收集的限制,以及生成式人工智能必须“坚持社会主义核心价值观”的指导方针。[60][61]

版权

有版权内容的训练

ChatGPTMidjourney等生成式人工智能系统是在大型、公开可用的资料集上进行训练的,这些资料集包含了受版权保护的作品。AI 开发者认为这种训练受到合理使用的保护,而著作权人则认为这侵犯了他们的权利。[62]

合理使用训练的支持者认为,这是一种转换性的使用,并不涉及向大众提供著作权作品的复本。批评者则认为,像Midjourney之类的图像产生器可以制造出几乎相同的某些版权图像副本,而且产生式人工智慧程式会与其训练的内容竞争。

人工智能产生内容的版权

另一个问题是人工智慧产生的作品是否有资格获得著作权保护。美国著作权局已经裁定,人工智慧在没有人为投入的情况下所创造的作品不能取得著作权,因为这些作品缺乏人为作者的身分。[63]不过,该局也已开始接受公众意见,以决定这些规则是否需要针对生成式人工智慧加以改进。[64]

关注

生成式人工智慧的发展已引起政府、企业和个人的关注,导致抗议、法律行动、要求暂停人工智慧实验,以及多国政府的行动。在2023年7月联合国安全理事会的简报会中,联合国秘书长安东尼奥·古特雷斯 (António Guterres) 表示“生成式人工智慧在规模上具有巨大的善恶潜力”,人工智慧可能会“为全球发展注入动力”,并在2030年前为全球经济贡献$10到$15兆美元,但其恶意使用“可能会造成可怕程度的死亡与破坏、广泛的创伤,以及无法想像规模的深度心理伤害”。[65]

工作岗位流失

Thumb
一名参加2023年美国作家协会罢工的纠察员。虽然不是最优先的事项,但2023年美国编剧协会大罢工的要求之一是“有关使用 (生成式) AI 的法规”。[66]

从人工智慧发展的早期开始,ELIZA的创造者约瑟夫·维森鲍姆 (Joseph Weizenbaum) 及其他人士就一直在争论,考虑到电脑与人类之间的差异,以及定量计算与定性、价值判断之间的差异,那些可以由电脑完成的任务实际上是否应该由电脑来完成。[67] 2023年4月,据报导,图像生成AI已导致中国70%的电子游戏插画师职位流失。[68][69] 2023年7月,语音生成AI的发展促成了2023年好莱坞劳资纠纷。美国电影演员协会 (Screen Actors Guild) 主席法兰·卓雪 (Fran Drescher) 在2023年SAG-AFTRA大罢工期间宣称,“人工智慧对创意专业构成生存威胁”。 [70] 语音生成AI已被视为对配音演员领域的潜在挑战。[71][72]

AI与全球代表性不足族群的就业问题之间的交集,仍然是一个重要的层面。虽然AI有望提升效率并获得技能,但这些族群对于工作转移和有偏见的招募程序的忧虑仍然存在,快公司 (Fast Company) 的调查也概述了这一点。为了善用人工智慧创造更公平的社会,前瞻性的步骤包括减少偏见、提倡透明度、尊重隐私权与同意权,以及接纳多元团队与道德考量。策略包括将政策重点转移到法规、包容性设计,以及教育的个人化教学潜力上,以达到利益最大化,伤害最小化。[73]

种族与性别偏见

生成式AI模型可以反映并放大基础资料中存在的任何文化偏误。例如,语言模型可能会假设医生和法官是男性,而秘书或护士是女性,如果这些偏见在训练资料中很常见的话。[74] 同样地,如果在有种族偏见的资料集上进行训练,以“一张 CEO 的照片”为文字提示的图像模型可能会不成比例地产生白人男性CEO的图像。[75]我们尝试了许多减轻偏差的方法,例如改变输入提示和重新加权训练资料。[76]

深度伪造

深伪技术 (Deepfakes) (“深度学习”"deep learning" 与“伪造”"fake"的混成词[77]) 是人工智能产生的媒体,利用人工神经网路,将现有图像或视讯中的人物换成其他人的肖像。[78] 深伪技术因其在深伪技术名流色情视频复仇式色情假新闻钓鱼式恶作剧、健康谣言、金融诈骗和秘密的外国选举操控干扰中的使用而引起了广泛的关注和关注。[79][80][81][82][83][84][85] 这引起了业界和政府的回应,以侦测和限制其使用。[86][87]

2023年7月,事实检查公司Logically发现,流行的生成式人工智慧模型MidjourneyDALL-E 2和Stable Diffusion在受到提示时会产生似是而非的假消息图像,例如美国选举操控舞弊和穆斯林妇女支持印度的印度教民族主义印度人民党的图像。[88][89]

2024年4月,一篇论文建议使用区块链分散式账本技术)来促进“人工智慧开发与使用的透明度、可验证性与分散性”。[90]

声音深度伪造

有使用者滥用软体,以名人、公职人员和其他知名人士的语音风格来产生具争议性的声明,这引起了人们对语音生成式人工智慧的道德忧虑。[91][92][93][94][95][96]作为回应ElevenLabs等公司已声明,他们将通过保障措施和身份验证,努力减少可能的滥用情况。[97]

人工智慧产生的音乐也衍生出关注与狂热。用来克隆声音的软体也被用在知名音乐家的声音上,创造出模仿他们声音的歌曲,获得极高的知名度与批评。[98][99][100]类似的技术也被用来创作已泄露或尚未发行的歌曲的改良品质或完整版本。[101]

生成式人工智慧也被用来创造新的数位艺人个性,其中有些艺人受到足够的关注,并获得主要唱片公司的唱片合约。[102]这些虚拟艺人的开发者也因为他们的人格化程式而面对不少批评,包括“非人化”艺术形式的反弹,以及创造出对观众有不切实际或不道德诉求的艺人。[103]

网路犯罪

生成式人工智能创造逼真虚假内容的能力已被许多类型的网路犯罪所利用,包括网路钓鱼式攻击[104]Google点击欺诈主管Shuman Ghosemajumder曾预言,虽然深伪技术影片最初在媒体上引起轰动,但很快就会变得司空见惯,也因此变得更危险。[105] 此外,大型语言模型和其他形式的文字生成式人工智慧已广泛地在电子商务网站上制造虚假评论,以提高评价。[106]网路罪犯已建立专注于诈欺的大型语言模型,包括WormGPT和FraudGPT。[107]

最近在2023年所做的研究显示,生成式人工智慧存在弱点,可被犯罪分子操控,绕过道德保障措施撷取有害资讯。该研究提出了在ChatGPT上完成的攻击范例,包括越狱和反向心理学。此外,恶意个人可以使用ChatGPT进行社会工程学攻击和网路钓鱼式攻击,揭露这些技术有害的一面。[108]

依赖产业巨头

训练前沿的AI模型需要大量的运算能力。通常只有科技巨擘 (Big Tech) 才有财力进行这样的投资。CohereOpenAI等小型新创公司最终分别向GoogleMicrosoft购买资料中心的使用权。[109]

参见

参考资料

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.