Loading AI tools
一种人工智能自然语言处理模型理论 来自维基百科,自由的百科全书
基于转换器的生成式预训练模型[1](英语:generative pre-trained transformers,GPT)是一种大型语言模型(LLM)[2][3][4],也是生成式人工智慧的重要框架[5][6]。首个GPT由OpenAI于2018年推出[7]。GPT模型是基于Transformer模型的人工神经网络,在大型未标记文本数据集上进行预训练,并能够生成类似于人类自然语言的文本[3][4]。截至2023年,大多数LLM都具备这些特征[8],并广泛被称为GPT[9][10]。
上级分类 | 大型语言模型 |
---|---|
简称 | GPT |
OpenAI发布了具有极大影响力的GPT基础模型,它们按顺序编号,构成了“GPT-n”系列[11]。由于其规模(可训练参数数量)和训练程度的提升,每个模型相较于前一个都显著增强。其中最新的模型是GPT-4o,于2024年5月发布。这些模型为更具任务特定性的GPT系统奠定了基础,包括经过微调以适应特定指令的模型——而这些又反过来为ChatGPT聊天机器人服务提供了支持[2] 。
术语“GPT”还用于命名和描述其他开发者所开发的模型。例如,其他GPT基础模型包括EleutherAI开发的一系列模型[12],以及Cerebras开发的七个模型[13]。此外,不同行业的公司还在其各自领域开发了执行特定任务的GPT,例如赛富时的“EinsteinGPT”(用于客户关系管理)[14]和彭博的“BloombergGPT”(用于金融领域)[15]。
生成式预训练(generative pretraining,简称GP)是机器学习应用中一个历史悠久的概念[16][17],但直到2017年,Google的员工发明了Transformer模型[18],这才使得大型语言模型如BERT(2018年)[19]和XLNet(2019年)成为可能[20],这些模型是预训练的转换器(pre-trained transformers,简称PT),但未被设计为生成式,而是“仅编码器”(encoder-only)[21]。2018年,OpenAI发表了题为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)的文章,在其中首次介绍了基于转换器的生成式预训练模型(GPT)系统(“GPT-1”)[22]。
在基于转换器的架构出现之前,表现最优秀的神经自然语言处理(NLP)模型通常通过大量手动标记的数据进行监督学习。这种依赖于监督学习的开发途径限制了在未经充分标记的数据集上的应用,并且使得训练极大型语言模型相当耗时且开支非常昂贵[22]。
OpenAI采用半监督学习方法来构建大规模生成式系统,同时也是首个使用Transformer模型的方法。该方法包括两个阶段:无监督的生成式“预训练”阶段,使用目标函数来设置初始参数;以及有监督的判别式“微调”阶段,将这些参数在目标任务上进行微调[22]。
OpenAI于2020年7月发布了GPT-3的首个版本。其中包括三个模型,参数数量分别为10亿、67亿和1750亿,分别被命名为巴贝奇(babbage)、居里(curie)和达芬奇(davinci),分别以B、C和D作为简称。
2021年7月,OpenAI发布了Codex,是专门用于编程应用的特定任务GPT模型。该模型使用GitHub上的代码对GPT-3的12亿参数版本(与之前的GPT-3模型不同)进行代码微调而开发[23]。
2022年3月,OpenAI发布了两个针对指令跟随进行微调(即“指令微调”(instruction-tuned))的GPT-3版本,分别命名为davinci-instruct-beta(1750亿参数)和text-davinci-001[24],随后开始测试code-davinci-002[25]。text-davinci-002是通过code-davinci-002进行指令微调得到的。text-davinci-003和ChatGPT于2022年11月发布,两者都是在text-davinci-002的基础上通过基于人类反馈的强化学习方案[1](RLHF)得到的。text-davinci-003用于遵循指令(与其前身相似),而ChatGPT则经过进一步训练,可与人类用户进行对话交互[26][27] 。
OpenAI最新的GPT基础模型是GPT-4,于2023年3月14日发布。用户可以通过ChatGPT的高级版本直接访问它,而开发者则可通过OpenAI的API将其纳入其他产品和服务中。其他GPT基础模型的开发者包括EleutherAI(从2021年3月开始推出一系列模型)[12]和Cerebras(于2023年3月发布七个模型)[13]。
基础模型是指在广泛的数据上进行大规模训练的AI模型,以便能够适用于各种下游任务[28] 。
迄今为止,最著名的GPT基础模型来自OpenAI的GPT-n系列。其中最新的是GPT-4,OpenAI选择不公开该模型的规模或训练细节,理由是“大规模模型的竞争环境和安全影响”[29]。
模型 | 架构 | 参数数量 | 训练数据 | 发布日期 | 训练成本 |
---|---|---|---|---|---|
GPT-1 | 12层,12头的Transformer解码器(没有编码器),后跟线性softmax层 | 1.17 亿 | BookCorpus[30]:一个包含7000本未出版书籍的语料库,总大小为4.5 GB。这些书籍涵盖了各种不同的文学流派和主题。 | 2018年6月11日[7] | “使用8个GPU训练1个月”[7],或等价于1.7e19次浮点运算(FLOP)[31] |
GPT-2 | 基于GPT-1架构,但使用修改后的归一化方法 | 15亿 | WebText:一个包含八百万个文档的语料库,总大小为40 GB。这些文本是从Reddit上投票最高的4,500万个网页中收集的,包括各种主题和来源,例如新闻、论坛、博客、维基百科和社交媒体等。 | 2019年2月14日(初始/有限版)和2019年11月5日(完整版)[32] | “数十PetaFlop/s-day”[33],或等价于1.5e21次浮点运算[31] |
GPT-3 | 基于GPT-2架构,但修改以支持更大规模的训练 | 1750亿 | 一个总大小为570 GB的大规模文本语料库,其中包含约4990亿个标记。这些数据主要来自于Common Crawl、WebText、英文维基百科和两个书籍语料库(Books1和Books2)。 | 2020年5月28日[33] | 3640 petaflop/s-day(Table D.1 [33]), 或等价于3.1e23次浮点运算[31] |
GPT-3.5 | 未公开 | 1750亿[34] | 未公开 | 2022年3月15日 | 未公开 |
GPT-4 | 使用文本预测和基于人类反馈的强化学习方案(RLHF)进行训练,并可以接受文本和图像输入。进一步的细节尚未公开[29] | 未公开 | 未公开 | 2023年3月14日 | 未公开。估计约为2.1e25次浮点运算[31] |
其他类似的模型包括Google的PaLM,与2023年3月通过API向开发者提供[35][36]。另外还有Together的GPT-JT,据报道是与GPT-3性能最接近的开源替代方案(源自早期的开源GPT模型)[37]。Meta AI(前身为Facebook)还拥有一个基于转换器的生成式基础大型语言模型(generative transformer-based foundational large language model),称为LLaMA[38]。
基础GPT模型还可以采用文本以外的模态进行输入和/或输出。GPT-4是一个多模态LLM,能够处理文本和图像输入(尽管其输出仅限于文本)[39]。多模态输出方面,一些基于转换器的生成式模型被用于文本到图像技术,如扩散[40]和并行解码[41]。此类模型可作为视觉基础模型(visual foundation models,简称VFMs),用于开发能够处理图像的下游系统[42]。
基础GPT模型可以进一步适应特定任务和/或主题领域,形成更具针对性的系统。这种适应的方法可以包括额外的微调(超出基础模型的微调),以及某种形式的提示工程[43] 。
一个重要的例子是将模型微调以遵循指令,这当然是一个相当广泛的任务,但比基础模型更具针对性。2022年1月,OpenAI推出了“InstructGPT”系列模型,这些模型在GPT-3语言模型的基础上使用监督训练和基于人类反馈的强化学习方案(RLHF)进行微调,以遵循指令。与纯粹的基础模型相比,其优点包括更高的准确性、更少的负面情感,以及更好地符合用户需求。因此,OpenAI开始将它用作其API服务提供的基础。其他开发者也发布了不同的经过指令微调的模型,其中还有完全开源的模型[44][45]。
另一种(相关的)任务特定模型是聊天机器人,它可以进行类似人类对话的交流。2022年11月,OpenAI推出了ChatGPT。ChatGPT是一个在线聊天界面,由经过指令微调的语言模型提供支持,该模型的训练方式类似于InstructGPT[46]。OpenAI使用RLHF训练该模型,通过让人工智能训练员进行对话,扮演用户和AI的角色,并将这些新的对话数据集与InstructGPT数据集混合,形成了适合聊天机器人的对话格式。其他主要的聊天机器人还包括微软的Bing Chat,它使用OpenAI的GPT-4(作为OpenAI和微软之间更广泛合作的一部分),以及竞争对手Google的Bard聊天机器人(最初基于他们的LaMDA系列对话训练语言模型,计划转换为PaLM)[47]。
GPT还可以用于另一种元任务,即生成它自己的指令,如为“自己”开发一系列提示(prompt),以实现人类用户给定的更一般目标[48]。这被称为AI智能体,具体而言是递归性的,因为它利用前一次的自我指令结果来帮助形成后续的提示;这方面的一个重要例子是Auto-GPT(使用OpenAI的GPT模型),此外还有其他类似的模型被开发出来[49] 。
基于转换器的生成式系统还可以针对涉及文本以外的其他模态的任务进行定制。
例如,微软的“Visual ChatGPT”结合了ChatGPT与视觉基础模型(VFMs),使其能够处理包含图像和文本的输入或输出[50]。此外,由于文本转语音技术的进步,当该技术与基础GPT语言模型结合使用时,可为音频内容的创作提供强大的工具[51]。
GPT系统可以针对特定领域或行业。以下是一些报道中涉及的此类模型和应用示例:
有时,领域特异性可以通过软件插件或附加组件实现。例如,几家公司已经开发了与OpenAI的ChatGPT接口直接交互的特定插件[60][61],Google Workspace也提供了可用的附加组件,如“GPT for Sheets and Docs”。据报道,该组件有助于Google试算表中电子试算表功能的使用[62][63]。
OpenAI曾宣称“GPT”应该被视为OpenAI的品牌[64]。在2023年4月,OpenAI在其服务条款中修改了品牌指南,指示其他企业在使用其API运行其人工智能(AI)服务时,将不再能够在名称或品牌中包含“GPT”[65]。在2023年5月,OpenAI聘请了一个品牌管理服务,通知其API客户有关此政策的信息,尽管这些通知并未明确提出法律要求(比如指控商标侵权或要求停止并终止)[64]。
此外,OpenAI已向美国专利及商标局(USPTO)申请在AI领域对“GPT”一词进行国内商标注册[64]。OpenAI试图让其申请被加速处理,但专利及商标局于2023年4月拒绝了该请求[66]。要获得商标批准,OpenAI需要证明该术语实际上在其特定产品中具有“显著性”,而不仅仅被广泛理解为描述类似技术的广泛技术术语。一些媒体报道暗示OpenAI或可间接基于其ChatGPT的知名度来实现这一点[66][67],对于ChatGPT,OpenAI已经单独寻求商标保护(并试图更严格地执行)[68] 。其他报道表明,“GPT”一词似乎不太可能被授予独占权[64][69],因为它经常用于简单地指代涉及生成预训练转换器的AI系统[4][70][71]。即使这种情况发生,商标上的描述性合理使用原则仍可能保留一些空间,使其能继续进行与品牌无关的使用[72]。
以下为OpenAI和微软关于其GPT模型的主要官方出版物:
GPT-2:博客公告[74],关于“分阶段发布”决策的报告[75],GitHub发布[76]
GPT-3:报告[33]。此后没有GitHub或任何其他形式的代码发布
ChatGPT:博客公告(无报告)[46]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.