基于人类反馈的强化学习

基于人类反馈的强化学习（英语：reinforcement learning from human feedback，简称RLHF），包括基于人类偏好的强化学习（reinforcement learning from human preferences），是一种直接根据人类反馈训练“奖励模型”的机器学习技术，并使用该模型作为强化学习中的奖励函数，再通过近端策略优化等算法以优化智能体（agent）策略。^[1]奖励模型在进行策略优化之前预先训练，以预测给定的输出是好（高奖励）还是坏（低奖励）。RLHF可以提高强化学习智能体的鲁棒性（robustness）和探索性（exploration），尤其适用于奖励函数稀疏或有噪声（不确定性）的情形。^[2]

人类反馈最常见的收集方式是要求人类对智能体行为的实例进行偏好排序。^[3]^[4]^[5]之后可以通过Elo等级分等方式利用排序结果对输出进行评分。^[1]虽然这种偏好判断被广泛采用，但还有其他类型的人类反馈可以提供更丰富的信息，例如数字反馈、自然语言反馈和编辑率等。

标准RLHF假设人类偏好遵循成对比较的布拉德利-特里模型（英语：Bradley–Terry model）或者多重比较的普拉斯基特-卢斯模型（Plackett–Luce model），并通过最小化交叉熵损失以学习奖励模型。^[6]在训练完奖励模型之后，RLHF根据学习到的奖励模型对语言模型进行进一步微调，使模型与人类偏好保持一致。

RLHF适用于模型输出的质量难以用算法清晰定义；但人类可以轻松判断的任务。例如，如果模型的任务是生成一个引人入胜的故事，人类可以对人工智能生成的不同故事的质量进行评分，而模型可以利用人类的反馈来提高其生成新故事的能力。

RLHF已应用于自然语言处理的各个领域，例如对话、文本摘要和自然语言理解。在普通的强化学习中，智能体根据“奖励函数”从自己的行为中学习。但在自然语言处理任务中，奖励通常不容易定义或测量，特别是在处理涉及人类价值观或偏好的复杂任务时尤其如此。在RLHF的帮助下，语言模型能够提供与这些复杂价值观相符的答案，生成更为详细的回复，同时拒绝不适当或超出模型知识空间的问题。^[7] 经RLHF训练的语言模型包括OpenAI开发的ChatGPT及其前身InstructGPT^[4]、DeepMind的Sparrow等。

除自然语言处理外，RLHF还被应用于视频游戏机器人开发等其他领域。例如，OpenAI和DeepMind训练的智能体能基于人类喜好来玩Atari游戏。^[8]^[9]这些智能体在多种测试环境中都表现出色，经常能超越人类的水平。^[10]

[huggingface-1] [1]
Lambert, Nathan; Castricato, Louis; von Werra, Leandro; Havrilla, Alex. Illustrating Reinforcement Learning from Human Feedback (RLHF). huggingface.co. [4 March 2023]. （原始内容存档于2023-03-16）.

[2] [2]
MacGlashan, James; Ho, Mark K; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Matthew E.; Littman, Michael L. Interactive learning from policy-dependent human feedback. Proceedings of the 34th International Conference on Machine Learning - Volume 70 (JMLR.org). 6 August 2017: 2285–2294 [2023-12-11]. arXiv:1701.06049 . （原始内容存档于2023-03-04）.

[3] [3]
Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina. Training language models to follow instructions with human feedback. Thirty-Sixth Conference on Neural Information Processing Systems: NeurIPS 2022. 31 October 2022 [2023-12-11]. arXiv:2203.02155 . （原始内容存档于2023-03-15）（英语）.

[ars-4] [4]
Edwards, Benj. OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results. Ars Technica. 1 December 2022 [4 March 2023]. （原始内容存档于2023-03-15）（美国英语）.

[5] [5]
Abhishek, Gupta. Getting stakeholder engagement right in responsible AI. VentureBeat. 5 February 2023 [4 March 2023]. （原始内容存档于2023-03-20）.

[6] [6]
Zhu, Banghua; Jordan, Michael; Jiao, Jiantao. Principled Reinforcement Learning with Human Feedback from Pairwise or K-wise Comparisons. Proceedings of the 40th International Conference on Machine Learning (PMLR). 2023-07-03: 43037–43067 [2023-12-11]. （原始内容存档于2023-10-27）（英语）.

[7] [7]
Wiggers, Kyle. Can AI really be protected from text-based attacks?. TechCrunch. 24 February 2023 [4 March 2023]. （原始内容存档于2023-03-16）.

[8] [8]
Learning from human preferences. openai.com. [4 March 2023]. （原始内容存档于2023-06-18）.

[9] [9]
Learning through human feedback. www.deepmind.com. [4 March 2023]. （原始内容存档于2023-03-19）（英语）.

[10] [10]
Christiano, Paul F; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario. Deep Reinforcement Learning from Human Preferences. Advances in Neural Information Processing Systems (Curran Associates, Inc.). 2017, 30 [4 March 2023]. （原始内容存档于2023-03-19）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Wikiwand in your browser!

基于人类反馈的强化学习

Wikiwand in your browser!

参考文献