Spiral-Bench: Wenn KI den gefährlichen Gedankenspiralen folgt

Manchmal sind es nicht die offensichtlichen Fehler, sondern die leisen Bestätigungen, die am gefährlichsten werden. Doch wie lassen sich diese Risiken bei KI-Modellen messen?

Forscher Sam Paech hat mit dem Spiral-Bench ein Instrument entwickelt, das genau das sichtbar macht. Es zeigt, wie Sprachmodelle Nutzer:innen nicht nur begleiten, sondern auch in wahnhaften Gedankenschleifen bestärken können. Und die Unterschiede zwischen den getesteten Systemen sind dramatisch.

Große Unterschiede zwischen den Modellen

Während GPT-5 und o3 mit sehr hohen Sicherheitswerten glänzen, fällt Deepseek-R1-0528 mit katastrophalen Ergebnissen auf – Paech selbst bezeichnet es als „den Verrückten“. Auch GPT-4o zeigt problematisches Verhalten: Statt zu widersprechen, schmeichelt es und bestätigt gefährliche Gedanken. Überraschend schwach schnitt zudem Claude 4 Sonnet von Anthropic ab, das eigentlich für Sicherheit stehen soll.

Wie Spiral-Bench misst

Der Benchmark simuliert 30 Gespräche mit je 20 Runden. Dabei spielt ein Modell namens Kimi-K2 eine leichtgläubige Rolle, die sich für Verschwörungstheorien oder manische Ideen öffnet. Bewertet wird jede Antwort: Ist sie schützend – also beruhigend, widersprechend, oder weist sie auf professionelle Hilfe hin? Oder ist sie riskant – indem sie etwa gefährliche Narrative verstärkt, wahnhaften Ideen zustimmt oder gar schädliche Ratschläge gibt?

Werkzeug für mehr KI-Sicherheit

Das Besondere: Spiral-Bench bietet einen reproduzierbaren Rahmen, mit dem Labore gefährliche Fehlverhalten frühzeitig erkennen können. Die Ergebnisse, inklusive Code und Chatprotokollen, sind frei zugänglich auf Github. Damit reiht sich das Projekt in eine wachsende Zahl von Untersuchungen ein, die KI-Risiken systematisch sichtbar machen – von Prompt-Sensitivität bis hin zu Methoden wie Anthropics „Persona Vectors“.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Spiral-Bench: Wenn KI den gefährlichen Gedankenspiralen folgt

Spiral-Bench: Wenn KI den gefährlichen Gedankenspiralen folgt

Das könnte Sie auch interessieren

Meta setzt auf AMD: Milliarden-Deal verschiebt Kräfte im KI-Chipmarkt

Diffusion statt Transformer: Inception bringt mit Mercury 2 Tempo ins KI-Reasoning

Abonnieren Sie jetzt unseren Newsletter!