Eine aktuelle Studie von Bytedance nimmt genau dieses Phänomen unter die Lupe. Das zentrale Problem: Viele Modelle produzieren deutlich längere Gedankengänge als nötig – inklusive Gegenproben, Umformulierungen und mehrfachen Bestätigungen. Dabei zeigen die Analysen klar, dass die Modelle durchaus erkennen, wann sie eigentlich fertig sind. Nur: Die üblichen Sampling-Verfahren zwingen sie faktisch zum Weiterdenken.
Auf Benchmarks wie AIME 2025 wird das besonders deutlich. Deepseek-R1 erzeugt dort Antworten, die fast fünfmal länger sind als die von Claude 3.7 Sonnet – bei vergleichbarer Genauigkeit. Noch interessanter: QwQ-32B liefert kürzere Antworten, ist dabei aber sogar präziser und benötigt signifikant weniger Token. In vielen Fällen zeigt sich zudem, dass längere Antworten statistisch häufiger falsch sind.
Mit der neu eingeführten Metrik RFCS (Ratio of the First Correct Step) machen die Forschenden messbar, wann innerhalb einer Gedankenkette die richtige Lösung erstmals auftaucht. Das Ergebnis: Bei über der Hälfte der korrekt gelösten Aufgaben erscheint die richtige Antwort deutlich vor dem eigentlichen Ende der generierten Kette. In einem dokumentierten Fall wurde die Lösung nach 500 Token korrekt abgeleitet – gefolgt von weiteren 452 Token ohne inhaltlichen Mehrwert.
Der entscheidende Befund liegt jedoch eine Ebene tiefer. Wenn Modelle während der Inferenz mehrere Denkpfade parallel verfolgen dürfen, identifizieren sie selbst kurze, präzise Lösungswege mit hoher Konfidenz. Das Verfahren TSearch bewertet dabei nicht einzelne Token, sondern die durchschnittliche Wahrscheinlichkeit ganzer Gedankengänge. Auffällig: Am Ende dieser effizienten Pfade steht das Abbruchsignal konsistent an erster Stelle der wahrscheinlichsten nächsten Token. Das Modell „weiß“ also, dass es fertig ist.
Genau hier setzt SAGE (Self-Aware Guided Efficient Reasoning) an. Statt Token für Token zu expandieren, arbeitet SAGE auf Ebene ganzer Reasoning-Schritte und prüft nach jedem Schritt, ob das Modell selbst das Ende signalisiert. Wird dieses Signal erkannt, wird der Prozess beendet. In Experimenten steigert dieser Ansatz bei starken Modellen die Genauigkeit auf anspruchsvollen Benchmarks – während bei einfacheren Aufgaben vor allem die Antwortlänge sinkt.
Mit SAGE-RL integrieren die Forschenden diese effizienten Denkmuster direkt ins Training. Das Ergebnis ist bemerkenswert: Auf mehreren Mathematik-Benchmarks steigen Genauigkeit und Effizienz gleichzeitig. Teilweise halbiert sich die Antwortlänge bei gleichbleibender oder sogar höherer Präzision. In vielen Fällen sinkt zudem die Inferenzzeit um über 40 Prozent.
