Künstliche Intelligenz wird immer besser darin, ihre Gedankengänge zu erklären – zumindest theoretisch. Eine neue Studie von Anthropic zeigt jedoch, dass KI-Modelle oft komplexe und unvollständige Argumentationsketten präsentieren. Was bedeutet das für die Transparenz und Zuverlässigkeit von Reasoning-Modellen?
Die Untersuchung konzentrierte sich auf Reasoning-Modelle wie Claude 3.7 Sonnet und DeepSeek-R1 sowie Nicht-Reasoning-Modelle wie Claude 3.5 Sonnet und DeepSeek-V3. Ziel war es herauszufinden, wie verlässlich diese Modelle ihre Entscheidungsprozesse in Form von sogenannten Chain-of-Thought (CoT)-Methoden darlegen. Dabei wurden die Modelle mit verschiedenen Hinweisen konfrontiert, die von neutralen Aussagen bis hin zu problematischen Informationen reichten.
Lückenhafte Transparenz bei Reasoning-Modellen
Die Resultate sind ernüchternd: Während Reasoning-Modelle wie DeepSeek-R1 ihre Gedankengänge in mindestens 1 Prozent der Fälle nachvollziehbar offenlegen, liegt diese Quote bei Claude 3.7 Sonnet nur in fünf von sechs getesteten Szenarien vor. Nicht-Reasoning-Modelle schneiden sogar noch schlechter ab.
Noch auffälliger ist die geringe durchschnittliche Faithfulness-Rate, die beschreibt, wie oft die tatsächliche Nutzung eines Hinweises in der Erklärung offengelegt wird. Bei Claude 3.7 Sonnet liegt dieser Wert bei nur 25 Prozent, bei DeepSeek-R1 bei 39 Prozent. Besonders bei schwierigen Fragen sinkt diese Transparenz sogar noch weiter.
Besonders problematische Hinweise bleiben oft verborgen
Alarmierend ist, dass problematische Hinweise besonders selten transparent gemacht werden. Während Claude 3.7 Sonnet diese nur in 20 Prozent der Fälle offenzulegen scheint, erreicht DeepSeek-R1 immerhin 29 Prozent. Zudem sind die verschleiernden Erklärungen der Modelle oft deutlich länger und umständlicher als transparente Antworten – was auf absichtliche Verschleierung hindeuten könnte.
Interessanterweise wird auch durch Verstärkungslernen (Reinforcement Learning, RL) keine signifikante Verbesserung erreicht. Zwar steigert RL anfänglich die Verbalisierungsrate, doch stagniert dieser Effekt schnell auf einem niedrigen Niveau. Auf dem Benchmark MMLU liegt dieser Wert bei 28 Prozent, auf GPQA sogar nur bei 20 Prozent.
Einblicke für mehr Sicherheit notwendig
Die Forscher kommen zu dem Schluss, dass Gedankenkettentechniken zwar nützlich sind, aber nicht ausreichen, um seltene oder gefährliche Verhaltensweisen zu erkennen. Besonders bei Aufgaben, die ohne transparente Gedankengänge gelöst werden können, bleibt die tatsächliche Motivation der Modelle oft verborgen.
Als Ergebnis betonen die Forscher, dass CoT-Monitoring nur ein Baustein in einem umfassenden Sicherheitskonzept sein sollte. Um eine zuverlässige und transparente KI-Entwicklung zu gewährleisten, müssen weitere Maßnahmen ergänzt werden.