Reinforcement learning from human feedback

Rückkopplungsverfahren

Zusammenfassung

Kontext

Dem bereits durch bestärkendes Lernen mit umfassenden Daten trainierten Agent werden durch einen Tester mit gesundem Menschenverstand (Common sense) zu problematischen Themen Aufgaben gestellt (Prompts, Inputs). Die Resultate (Outputs) werden durch den Tester nach einer Bewertungsskala beurteilt und in ein Bewertungsmodell eingefügt. Die Resultate werden dem Agent mitgeteilt. Der Agent berücksichtigt diese Rückmeldungen bei künftigen Aufgaben und verbessert derart die Resultate des Agents nach menschlichen Kriterien.

Direkte Rückkopplung der einzelnen Bewertungsresultate

Die direkte Rückkopplung einzelner Bewertungsresultate ist nicht optimal. Dadurch könnte der Agent eine einzelne Antwort unmittelbar zu stark gewichten und darauf fixiert bleiben. Eine längerfristig ausgerichtete Optimierung würde so nicht erreicht.

Indirekte Rückkopplung der Bewertungsresultate

Um eine längerfristig ausgerichtete Optimierung der Resultate und genügend Flexibilität für veränderte Anforderungen zu erreichen, werden Testergebnisse kumuliert und vorverarbeitet, bevor sie dem Agenten mitgeteilt werden. Dies kann über ein zusätzliches künstliches neuronales Netz und/oder zur Anpassung der Strategie über Proximal Policy Optimization (PPO)^[6] geschehen.

Vorteile gegenüber klassischem bestärkendem Lernen

Verbesserte Leistung durch die Einbeziehung menschlicher Eingaben in den Lernprozess. Dadurch können genauere, schlüssigere und kontextbezogenere Resultate generiert werden.^[7]
Werkzeug zur Berücksichtigung schwer zu kalkulierender Werte wie Ethik, Moral und Humor. Unerwünschte, gefährliche oder verbotene Aussagen können blockiert werden.^[8]
Minimieren von schädlichen, unwahren und/oder voreingenommenen Ergebnisse durch menschliche Rückkopplung in der Trainingsschleife.^[2] Das Unternehmen Open AI hat 2023 das Projekt Superalignment ins Leben gerufen, um mittels RLHF KI-Halluzinationen des Systems ChatGPT zu minimieren.^[9]
Anpassungsfähigkeit ermöglicht, sich an neue Situationen anzupassen und die Leistung im Laufe der Zeit kontinuierlich zu verbessern.^[10]

Potentielle Nachteile und Herausforderungen

Zusammenfassung

Kontext

Skalierbarkeit und Kosten der menschlichen Interaktion. Im Vergleich zum unüberwachten Lernen kann das Sammeln menschlicher Beurteilung langsam und teuer sein^[11]
Die Qualität und Konsistenz der menschlichen Interaktion können je nach Aufgabe und individuellen Vorlieben der Menschen variieren. Es können Vorurteile und unausgewogene Ansichten einfließen^[12]
Herausforderungen beim Gestalten eines Belohnungsmodells aus menschlicher Interaktion, da Vorlieben von Menschen schwierig vorherzusagen sind, wenn die Interaktion unvollständig oder widersprüchlich ist.
Heikle Personendaten werden zu wenig sicher geschützt und manchmal als Ausgabe vom Chatbot weiter gegeben^[13]
Die Implementierung der menschlich beeinflussten Rückkopplung (Human Feedback) ist zu einem entscheidenden und teuren Wettbewerbsfaktor geworden, sodass die entsprechenden Lösungen nicht mehr allgemein als Open Source zugänglich sind und damit deren Reproduzierbarkeit nicht mehr gegeben ist.^[11] Neben der Software der verwendeten Algorithmen ist der Zugang zu den verwendeten Daten ebenfalls eingeschränkt.^[14]

Eine Zusammenstellung noch vorhandener Probleme und grundsätzlicher Beschränkungen von RLHF ist durch Forscher von Technischen Hochschulen MIT und ETH Zürich sowie mehrerer Universitäten gemeinsam erarbeitet worden.^[13]

Reinforcement learning from human feedback

Rückkopplungsverfahren

Direkte Rückkopplung der einzelnen Bewertungsresultate

Indirekte Rückkopplung der Bewertungsresultate

Vorteile gegenüber klassischem bestärkendem Lernen

Potentielle Nachteile und Herausforderungen

Siehe auch

Weblinks

Einzelnachweise

Wikiwand - on