Google DeepMind hat mit „SCoRe“ eine neue Technik vorgestellt, die große Sprachmodelle in die Lage versetzen soll, eigene Fehler zu erkennen und zu korrigieren – und das ohne externe Hilfe.
Wie SCoRe die KI-Welt verändert
Die Fähigkeit von großen Sprachmodellen (LLMs) zur Selbstkorrektur war bislang eine große Herausforderung. Methoden, die aktuell zum Einsatz kommen, setzen oft auf mehrere Modelle oder externe Überprüfungen, um Fehler in den generierten Antworten zu erkennen. Hier setzt Google DeepMinds neuer Ansatz „SCoRe“ an, was für „Self-Correction via Reinforcement Learning“ steht. SCoRe soll es LLMs ermöglichen, selbstständig Fehler zu erkennen und diese zu beheben – ohne auf externe Korrekturdaten angewiesen zu sein.
Das Besondere an SCoRe ist, dass es Reinforcement Learning (RL) nutzt, um den Lernprozess eines Modells in zwei Phasen zu optimieren. In der ersten Phase wird das Modell so trainiert, dass es Korrekturen im zweiten Versuch generieren kann, ohne zu stark von den ursprünglichen Antworten abzuweichen. Eine spezielle Verlustfunktion sorgt dafür, dass das Modell sowohl die erste als auch die zweite Antwort in Richtung einer Verbesserung optimiert.
In der zweiten Phase kommt ein mehrstufiges Reinforcement Learning zum Einsatz, bei dem das Modell kontinuierlich aus seinen Fehlern lernt. Eine Belohnungsfunktion fördert diesen Prozess, indem sie die Qualität der Korrekturen in aufeinanderfolgenden Versuchen stärker bewertet. Dadurch wird das Modell in die Lage versetzt, selbst generierte Daten für sein eigenes Training zu nutzen – ein klarer Vorteil gegenüber Ansätzen, die auf externe Überprüfungen setzen.
SCoRe hat sich bereits in Experimenten bewährt. In Tests mit den Gemini 1.0 Pro und 1.5 Flash Modellen konnte eine deutliche Verbesserung der Selbstkorrekturrate erzielt werden. Auf dem MATH-Benchmark, der mathematisches Schlussfolgern testet, verbesserte sich die Korrekturrate um 15,6 Prozentpunkte. Bei der Codegenerierung im HumanEval-Benchmark stieg die Rate um 9,1 Prozentpunkte.
Allerdings gibt es auch noch Einschränkungen: Bisher wurde SCoRe nur für eine einzige Runde der Selbstkorrektur trainiert. Zukünftige Forschungen könnten sich damit befassen, wie diese Methode auf mehrere aufeinanderfolgende Korrekturschritte ausgeweitet werden kann, um die Fähigkeit zur Selbstkorrektur noch weiter zu verbessern.