Reinforcement learning from human feedback
Methode des maschinellen Lernens Aus Wikipedia, der freien Enzyklopädie
Methode des maschinellen Lernens Aus Wikipedia, der freien Enzyklopädie
Reinforcement learning from human feedback (RLHF) (deutsch Bestärkendes Lernen durch menschliche Rückkopplung) steht für maschinelles Lernen, bei dem ein Software-Agent selbständig eine Strategie (Policy) erlernt, um erhaltene Belohnungen zu maximieren. Dabei wird dem Agenten nicht vorgezeigt, welche Aktion in welcher Situation die beste ist, sondern er erhält durch eine Bewertungseinheit zu bestimmten Zeitpunkten durch Rückkopplung (Feedback) aus der Umwelt eine reellwertige Belohnung, die auch negativ sein kann. Im Gegensatz zum klassischen bestärkenden Lernen bestimmt zusätzlich eine Bewertungseinheit eine weitere Belohnung nach Überprüfen von Resultaten des Software-Agents durch Personen, welche das sogenannte Alignment[1] mit menschlicher Denkweise, Erwartung und Wertvorstellung beurteilen.[2][3][4] Das Unternehmen Open AI hat diese zusätzliche, nachträgliche Feineinstellung mittels RLHF bei der Entwicklung von InstructGPT eingeführt und anschließend für die Entwicklung von ChatGPT und dessen Nachfolgern verwendet.[5]
Dem bereits durch bestärkendes Lernen mit umfassenden Daten trainierten Agent werden durch einen Tester mit gesundem Menschenverstand (Common sense) zu problematischen Themen Aufgaben gestellt (Prompts, Inputs). Die Resultate (Outputs) werden durch den Tester nach einer Bewertungsskala beurteilt und in ein Bewertungsmodell eingefügt. Die Resultate werden dem Agent mitgeteilt. Der Agent berücksichtigt diese Rückmeldungen bei künftigen Aufgaben und verbessert derart die Resultate des Agents nach menschlichen Kriterien.
Die direkte Rückkopplung einzelner Bewertungsresultate ist nicht optimal. Dadurch könnte der Agent eine einzelne Antwort unmittelbar zu stark gewichten und darauf fixiert bleiben. Eine längerfristig ausgerichtete Optimierung würde so nicht erreicht.
Um eine längerfristig ausgerichtete Optimierung der Resultate und genügend Flexibilität für veränderte Anforderungen zu erreichen, werden Testergebnisse kumuliert und vorverarbeitet, bevor sie dem Agenten mitgeteilt werden. Dies kann über ein zusätzliches künstliches neuronales Netz und/oder zur Anpassung der Strategie über Proximal Policy Optimization (PPO)[6] geschehen.
Eine Zusammenstellung noch vorhandener Probleme und grundsätzlicher Beschränkungen von RLHF ist durch Forscher von Technischen Hochschulen MIT und ETH Zürich sowie mehrerer Universitäten gemeinsam erarbeitet worden.[13]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.