Reinforcement learning from human feedback

基于人类反馈的强化学习（英語：reinforcement learning from human feedback，简称RLHF），包括基于人类偏好的强化学习（reinforcement learning from human preferences），是一种直接根据人类反馈训练“奖励模型”的机器学

基于转换器的生成式预训练模型

022年11月发布，两者都是在text-davinci-002的基础上通过基于人类反馈的强化学习方案（英语：Reinforcement learning from human feedback）（RLHF）得到的。text-davinci-003用于遵循指令（与其前身相似），而ChatGPT则经过进一步训练，可与人类用户进行对话交互

人工智能对齐

Ray, Alex. Learning from Human Preferences. OpenAI. 2017-06-13 [2022-07-21]. （原始内容存档于2021-01-03）. Li, Yuxi. Deep Reinforcement Learning: An Overview

增強

增強（英語：Reinforcement），台湾也称增强，是行为主义心理学中的一个重要概念，是关于理解和修正人的行为的一种学说。心理学研究发现，人类或动物为达到某种目的，会于所处的环境下采取特定行为；当这种行为带来的某種反應或后果对他有利时，这种行为就会在以后重复出现，而該結果就稱為「增強物」；反

ChatGPT

（原始内容存档于2023-01-19）. Knox, W. Bradley; Stone, Peter. Augmenting Reinforcement Learning with Human Feedback (PDF). University of Texas at Austin. [2022-12-05]. （原始内容存档