人間のフィードバックによる強化学習: reinforcement learning from human feedbackRLHF)は、AIモデルの出力において「人間の価値基準(人間の好み)」が反映されるための学習プロセスで、主にChatGPTなど高性能な会話型AIの学習プロセスに採用されている。

概要

機械学習では、人間のフィードバックによる強化学習(RLHF)は、人間のフィードバック(反応)から直接に「報酬モデル」を訓練し、そのモデルを報酬関数として使用して、近位方策最適化英語版などの最適化アルゴリズムによる強化学習(RL)を介してエージェント方策を最適化する技術である[1][2]。報酬モデルは、特定の出力が良い(報酬が高い)か悪い(報酬が低い)かを予測するために、最適化される方針に合わせて事前に訓練される。RLHFは、特に報酬関数が疎であったりノイズ英語版が多い場合に、強化学習エージェントのロバスト性(堅牢性)英語版と探索性を向上できる[3]

人間のフィードバックは、エージェントの行動の実例をランク付けするよう人間に依頼して収集するのが最も一般的である[4][5][6]。これらのランキングは、たとえばイロ・レーティングシステムなどで成績をスコア化するために使用することができる[2]。嗜好判断は広く使用されているが、数値フィードバック、自然言語フィードバック、編集率など、より豊富な情報を提供する別の種類の人間によるフィードバック方法もある[7]

簡単に言うと、RLHFは、「できばえ」に関する人間の反応から学習することで、人工知能(AI)モデルを訓練するものである。AIモデルが誤った予測や、最適とは言えない行動をとった場合、人間のフィードバックを利用して誤りを修正したり、より良い対応を提案したりすることができる。これによって、モデルは時間の経過とともに学習し、その応答を改善することができる。明確なアルゴリズムによる解決策を定義することは難しいが、AIの出力の品質を人間が容易に判断できるようなタスクにおいて、RLHFが使用される。たとえば、説得力のあるストーリーを生成するタスクの場合、人間はAIが生成したさまざまなストーリーの品質を評価して、AIはそのフィードバックを利用してストーリー生成の技量を向上することができる。

RLHFは、会話エージェントテキスト要約自然言語理解など、さまざまな自然言語処理の領域に応用されている[8]。通常の強化学習では、エージェントは「報酬関数」に基づいて自らの行動から学習するが、特に人間の価値観や嗜好に関わる複雑なタスクを扱う場合、報酬の定義や測定が難しいことが多いため、自然言語処理タスクに適用するのは難しい。RLHFを使用すると、言語モデルがこのような複雑な価値観に合致した回答を提供したり、より詳細な回答を生成したり、不適切な質問やモデルの知識空間の外にある質問を拒否したりできるようになる[9]。RLHFで訓練された言語モデルの例としては、OpenAIのChatGPTやその前身であるInstructGPT[5][10]、およびDeepMindのSparrow英語版などがある[11]。RLHFは、ビデオゲームボットの開発など、他の分野にも応用されている。たとえば、OpenAIとDeepMindは、人間の好みに基づいてAtariゲームをプレイするエージェントを訓練した[12][13]。エージェントはテストされた多くの環境で強力な性能を発揮し、しばしば人間の成績を上回った[14]

課題と限界

RLHFの主な課題の1つは、教師なし学習と比較して時間とコストがかかるという、人間のフィードバックのスケーラビリティである。また、人間によるフィードバックの品質と一貫性は、タスク、インターフェース、個人的嗜好によっても異なることがある。仮に人間によるフィードバックが実現可能であっても、RLHFモデルは人間によるフィードバックでは捕らえられない望ましくない行動を示したり、報酬モデルの弱点を突いたりする可能性があり、アライメント(整合性)ロバスト性英語版の課題が浮き彫りになる[15]

RLHFの有効性は、人間のフィードバックの品質に依存する[16]。フィードバックが公平性や一貫性を欠いていたり、誤りを含んでいると、AIは間違ったことを学習してしまう可能性があり、これはAIバイアスとして知られている[17]。また、AIが受け取ったフィードバックに過剰適合してしまうリスクもある。たとえば、特定の層からのフィードバックが多かったり、特定の偏見が反映されたりすると、AIはこうしたフィードバックから過度に一般化することを学習する可能性がある[18]

機械学習では、過剰適合(オーバーフィッティング)とは、AIモデルが訓練データを学習しすぎることを指す。これは、データの本質的なパターンだけでなく、ノイズや異常値も学習してしまうことを意味している。こうして訓練データの特異性に適応しすぎてしまうと、非構造化データ(未知データや、まだ整理されていない新しいデータ)に対する性能が低下する[19]。 フィードバックへの過剰適合は、モデルがユーザーのフィードバックに基づいて訓練され、意図された一般的な修正や改善だけでなく、フィードバックに含まれる特殊性、偏向、不必要な意見も学習してしまう場合に起こる[20]

言い換えれば、モデルは受け取った特定のフィードバックに基づいてその応答を過度に適応させ、その結果、より一般的な文脈や、あるいは異なる文脈において、最適な性能を発揮しない可能性がある。

たとえば、あるモデルが、特定のフレーズ俗語を一貫して使用するユーザーからのフィードバックに基づいて訓練され、そのフィードバックにモデルが過剰適合した場合、不適切な文脈でそのフレーズを使い始めるかもしれない。この場合、モデルは訓練データからそのフレーズがよく使われていることを学んだものの、その使い方の文脈的な妥当性を十分に理解しなかった。

さらに、AIの報酬が人間のフィードバックにのみ基づいている場合、AIが純粋に性能を向上させる代わりに、より高い報酬を得るためにフィードバックプロセスを不正に操作したり、システムを操作英語版することを学習する危険性があり、これは報酬関数の欠陥があることを示すものである[21]

参考項目

  • 強化学習 - 知的エージェントの学習方法を研究する機械学習の一分野
  • 報酬に基づく選択英語版 - 進化的アルゴリズムにおいて組み換えの解を選択するための手法

脚注

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.