Andrej Karpathy: Warum Reinforcement Learning from Human Feedback (RLHF) bei KI-Sprachmodellen an seine Grenzen stößt

Andrej Karpathy, ehemaliger OpenAI-Forscher, stellt die Wirksamkeit von Reinforcement Learning from Human Feedback (RLHF) bei der Entwicklung fortschrittlicher KI-Sprachmodelle infrage.

Reinforcement Learning from Human Feedback (RLHF) hat maßgeblich dazu beigetragen, KI-Modelle wie ChatGPT zu dem zu machen, was sie heute sind – folgsame und natürlich wirkende Sprachassistenten. Doch laut Andrej Karpathy, einem der führenden Köpfe im Bereich der KI-Forschung, hat diese Methode ihre Grenzen.

Karpathy erklärt, dass RLHF typischerweise die letzte Stufe im Trainingsprozess großer Sprachmodelle (LLMs) ist, nach dem Pretraining und dem überwachten Finetuning (SFT). Dabei bewerten menschliche Tester verschiedene Antworten des Modells und helfen so, die Qualität der generierten Texte zu verbessern. Doch Karpathy sieht dies eher als eine Notlösung, da traditionelles Reinforcement Learning (RL), wie es beispielsweise bei DeepMinds AlphaGo verwendet wurde, für Sprachmodelle bisher nicht umsetzbar ist.

AlphaGo wurde durch echtes RL trainiert, indem der Computer Go-Partien spielte und aus den Simulationen lernte. Durch das Optimieren seiner Strategien konnte AlphaGo schließlich sogar die besten menschlichen Spieler übertreffen. Dieses Vorgehen erlaubt es dem Modell, ohne menschliches Eingreifen übermenschliche Leistungen zu erbringen – ein Niveau, das RLHF nicht erreicht.

Würde man ein System wie AlphaGo mit RLHF trainieren, so Karpathy, wären die Ergebnisse weniger beeindruckend. Menschliche Bewerter würden lediglich entscheiden, welcher von zwei Brettzuständen ihnen besser gefällt – eine subjektive Einschätzung, die nicht unbedingt zum besten Spielzug führt. Übertragen auf Sprachmodelle bedeutet dies, dass RLHF nur ein „Vibe-Check“ durchführt – es belohnt die Art von Antworten, die den menschlichen Testern gefallen, ohne sicherzustellen, dass das Modell tatsächlich Probleme löst.

Das zentrale Problem ist laut Karpathy, dass in offenen Anwendungsbereichen von Sprachmodellen bisher keine überzeugenden Ergebnisse durch echtes RL erzielt wurden. Erfolgskriterien lassen sich schwer definieren, und die Belohnungsmodelle können leicht ausgenutzt werden, was zu suboptimalen Ergebnissen führt. Karpathy ist jedoch optimistisch, dass es möglich ist, diese Herausforderungen zu überwinden. Gelingt es, ein effektives RL-System für Sprachmodelle zu entwickeln, könnten diese zukünftig in der Lage sein, auf Augenhöhe mit Menschen Probleme zu lösen.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Andrej Karpathy: Warum Reinforcement Learning from Human Feedback (RLHF) bei KI-Sprachmodellen an seine Grenzen stößt

Andrej Karpathy: Warum Reinforcement Learning from Human Feedback (RLHF) bei KI-Sprachmodellen an seine Grenzen stößt

Das könnte Sie auch interessieren

Siri AI in der Beta: Fortschritte sichtbar, Zugang weiter eingeschränkt

Fugu: Sakana AI setzt auf orchestrierte KI statt auf ein einzelnes Spitzenmodell

Abonnieren Sie jetzt unseren Newsletter!