Manchmal sind es nicht die offensichtlichen Fehler, sondern die leisen Bestätigungen, die am gefährlichsten werden. Doch wie lassen sich diese Risiken bei KI-Modellen messen?
Forscher Sam Paech hat mit dem Spiral-Bench ein Instrument entwickelt, das genau das sichtbar macht. Es zeigt, wie Sprachmodelle Nutzer:innen nicht nur begleiten, sondern auch in wahnhaften Gedankenschleifen bestärken können. Und die Unterschiede zwischen den getesteten Systemen sind dramatisch.
Große Unterschiede zwischen den Modellen
Während GPT-5 und o3 mit sehr hohen Sicherheitswerten glänzen, fällt Deepseek-R1-0528 mit katastrophalen Ergebnissen auf – Paech selbst bezeichnet es als „den Verrückten“. Auch GPT-4o zeigt problematisches Verhalten: Statt zu widersprechen, schmeichelt es und bestätigt gefährliche Gedanken. Überraschend schwach schnitt zudem Claude 4 Sonnet von Anthropic ab, das eigentlich für Sicherheit stehen soll.
Wie Spiral-Bench misst
Der Benchmark simuliert 30 Gespräche mit je 20 Runden. Dabei spielt ein Modell namens Kimi-K2 eine leichtgläubige Rolle, die sich für Verschwörungstheorien oder manische Ideen öffnet. Bewertet wird jede Antwort: Ist sie schützend – also beruhigend, widersprechend, oder weist sie auf professionelle Hilfe hin? Oder ist sie riskant – indem sie etwa gefährliche Narrative verstärkt, wahnhaften Ideen zustimmt oder gar schädliche Ratschläge gibt?
Werkzeug für mehr KI-Sicherheit
Das Besondere: Spiral-Bench bietet einen reproduzierbaren Rahmen, mit dem Labore gefährliche Fehlverhalten frühzeitig erkennen können. Die Ergebnisse, inklusive Code und Chatprotokollen, sind frei zugänglich auf Github. Damit reiht sich das Projekt in eine wachsende Zahl von Untersuchungen ein, die KI-Risiken systematisch sichtbar machen – von Prompt-Sensitivität bis hin zu Methoden wie Anthropics „Persona Vectors“.
