Große Sprachmodelle wie ChatGPT oder Gemma scheitern oft dort, wo klare Entscheidungen gefragt sind. Doch woran liegt das – und wie kann man ihre Leistung verbessern?
Wenn Modelle wissen, was richtig ist – aber anders handeln
Eine neue Studie der JKU Linz und Google Deepmind liefert aufschlussreiche Erkenntnisse: Selbst leistungsstarke Modelle wie Gemma 2 mit bis zu 27 Milliarden Parametern treffen in Entscheidungssituationen häufig suboptimale Wahlmöglichkeiten. Das Problem ist dabei nicht mangelndes Wissen – im Gegenteil: In 87 % der Fälle wurde die optimale Entscheidung theoretisch korrekt berechnet, aber nur in 42 % auch tatsächlich gewählt.
Die Ursachen? Die Studie nennt gleich drei: Greediness, also das frühe Festlegen auf eine vermeintlich gute Option, Frequency Bias, bei dem kleinere Modelle einfach das wiederholen, was oft vorkam – sowie die Knowing-Doing Gap, also die Lücke zwischen Wissen und Handeln. Diese Schwächen verhindern, dass KI-Modelle neue Optionen überhaupt in Betracht ziehen.
Trainingsmethoden zeigen deutliche Verbesserungen
Um dem entgegenzuwirken, testeten die Forschenden verschiedene Trainingsstrategien. Besonders effektiv: Reinforcement Learning Fine-Tuning (RLFT) mit sogenannten „Chain-of-Thought“-Rationales, bei denen das Modell seine Entscheidungen begründet und daraus lernt. Schon nach 30.000 Trainingsschritten konnte das kleinere Modell Gemma2-2B mehr Optionen erkunden und gewann deutlich häufiger beim Spiel Tic-Tac-Toe – statt 15 % nun 75 % der Partien gegen Zufallsgegner. Gegen einen AlphaZero-basierten Gegner reichte es immerhin für ein Unentschieden.
Zusätzliche Tricks wie Try-All, bei dem das Modell jede mögliche Aktion einmal testen muss, sowie Belohnungen für neue Entscheidungen erwiesen sich ebenfalls als hilfreich: Der Anteil erkundeter Optionen stieg auf bis zu 70 %.
Warum Denkzeit entscheidend ist
Ein besonders interessanter Befund: Die sogenannte Denkzeit, also wie viele Tokens das Modell für seine Überlegungen zur Verfügung hat, beeinflusst das Ergebnis stark. Mehr Zeit zum „Nachdenken“ bedeutet bessere Entscheidungen – allerdings auch höhere Rechenkosten. Gerade die Kombination aus ausführlichen Begründungen und ausreichender Denkzeit macht moderne Reasoning-Modelle so effektiv.