Reinforcement learning from human feedback

Methode des maschinellen Lernens Aus Wikipedia, der freien Enzyklopädie

Reinforcement learning from human feedback (RLHF) (deutsch Bestärkendes Lernen durch menschliche Rückkopplung) steht für maschinelles Lernen, bei dem ein Software-Agent selbständig eine Strategie (Policy) erlernt, um erhaltene Belohnungen zu maximieren. Dabei wird dem Agenten nicht vorgezeigt, welche Aktion in welcher Situation die beste ist, sondern er erhält durch eine Bewertungseinheit zu bestimmten Zeitpunkten durch Rückkopplung (Feedback) aus der Umwelt eine reellwertige Belohnung, die auch negativ sein kann. Im Gegensatz zum klassischen bestärkenden Lernen bestimmt zusätzlich eine Bewertungseinheit eine weitere Belohnung nach Überprüfen von Resultaten des Software-Agents durch Personen, welche das sogenannte Alignment[1] mit menschlicher Denkweise, Erwartung und Wertvorstellung beurteilen.[2][3][4] Das Unternehmen Open AI hat diese zusätzliche, nachträgliche Feineinstellung mittels RLHF bei der Entwicklung von InstructGPT eingeführt und anschließend für die Entwicklung von ChatGPT und dessen Nachfolgern verwendet.[5]

Rückkopplungsverfahren

Zusammenfassung
Kontext

Dem bereits durch bestärkendes Lernen mit umfassenden Daten trainierten Agent werden durch einen Tester mit gesundem Menschenverstand (Common sense) zu problematischen Themen Aufgaben gestellt (Prompts, Inputs). Die Resultate (Outputs) werden durch den Tester nach einer Bewertungsskala beurteilt und in ein Bewertungsmodell eingefügt. Die Resultate werden dem Agent mitgeteilt. Der Agent berücksichtigt diese Rückmeldungen bei künftigen Aufgaben und verbessert derart die Resultate des Agents nach menschlichen Kriterien.

Direkte Rückkopplung der einzelnen Bewertungsresultate

Die direkte Rückkopplung einzelner Bewertungsresultate ist nicht optimal. Dadurch könnte der Agent eine einzelne Antwort unmittelbar zu stark gewichten und darauf fixiert bleiben. Eine längerfristig ausgerichtete Optimierung würde so nicht erreicht.

Indirekte Rückkopplung der Bewertungsresultate

Um eine längerfristig ausgerichtete Optimierung der Resultate und genügend Flexibilität für veränderte Anforderungen zu erreichen, werden Testergebnisse kumuliert und vorverarbeitet, bevor sie dem Agenten mitgeteilt werden. Dies kann über ein zusätzliches künstliches neuronales Netz und/oder zur Anpassung der Strategie über Proximal Policy Optimization (PPO)[6] geschehen.

Vorteile gegenüber klassischem bestärkendem Lernen

  • Verbesserte Leistung durch die Einbeziehung menschlicher Eingaben in den Lernprozess. Dadurch können genauere, schlüssigere und kontextbezogenere Resultate generiert werden.[7]
  • Werkzeug zur Berücksichtigung schwer zu kalkulierender Werte wie Ethik, Moral und Humor. Unerwünschte, gefährliche oder verbotene Aussagen können blockiert werden.[8]
  • Minimieren von schädlichen, unwahren und/oder voreingenommenen Ergebnisse durch menschliche Rückkopplung in der Trainingsschleife.[2] Das Unternehmen Open AI hat 2023 das Projekt Superalignment ins Leben gerufen, um mittels RLHF KI-Halluzinationen des Systems ChatGPT zu minimieren.[9]
  • Anpassungsfähigkeit ermöglicht, sich an neue Situationen anzupassen und die Leistung im Laufe der Zeit kontinuierlich zu verbessern.[10]

Potentielle Nachteile und Herausforderungen

Zusammenfassung
Kontext
  • Skalierbarkeit und Kosten der menschlichen Interaktion. Im Vergleich zum unüberwachten Lernen kann das Sammeln menschlicher Beurteilung langsam und teuer sein[11]
  • Die Qualität und Konsistenz der menschlichen Interaktion können je nach Aufgabe und individuellen Vorlieben der Menschen variieren. Es können Vorurteile und unausgewogene Ansichten einfließen[12]
  • Herausforderungen beim Gestalten eines Belohnungsmodells aus menschlicher Interaktion, da Vorlieben von Menschen schwierig vorherzusagen sind, wenn die Interaktion unvollständig oder widersprüchlich ist.
  • Heikle Personendaten werden zu wenig sicher geschützt und manchmal als Ausgabe vom Chatbot weiter gegeben[13]
  • Die Implementierung der menschlich beeinflussten Rückkopplung (Human Feedback) ist zu einem entscheidenden und teuren Wettbewerbsfaktor geworden, sodass die entsprechenden Lösungen nicht mehr allgemein als Open Source zugänglich sind und damit deren Reproduzierbarkeit nicht mehr gegeben ist.[11] Neben der Software der verwendeten Algorithmen ist der Zugang zu den verwendeten Daten ebenfalls eingeschränkt.[14]

Eine Zusammenstellung noch vorhandener Probleme und grundsätzlicher Beschränkungen von RLHF ist durch Forscher von Technischen Hochschulen MIT und ETH Zürich sowie mehrerer Universitäten gemeinsam erarbeitet worden.[13]

Siehe auch

Einzelnachweise

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.