Anthropic will mit Fable 5 verhindern, dass leistungsfähige KI-Funktionen für Cyberangriffe oder andere schädliche Zwecke genutzt werden. Mehrere Sicherheitsforscher kritisieren nun jedoch, dass die Schutzmechanismen zu streng reagieren und auch normale Entwicklungs- und Sicherheitsarbeit ausbremsen.
Fable 5 ist die öffentlich verfügbare Variante von Anthropics neuem Spitzenmodell Mythos 5. Anders als Mythos nutzt Fable vorgeschaltete Filter für Themen wie Cybersecurity, Biologie, Chemie und Distillation. Wird eine Anfrage als heikel eingestuft, antwortet nicht Fable selbst, sondern das ältere Modell Claude Opus 4.8. Anthropic beschreibt diese Safeguards als bewusst konservativ kalibriert.
Genau diese Kalibrierung sorgt nun für Kritik. Valentina „Chompie“ Palmiotti von IBM X-Force berichtet, Fable lehne bereits Anfragen ab, die nur am Rand mit Cybersecurity zu tun hätten. Selbst das Lesen eines Blogbeitrags könne betroffen sein. In der IT-Sicherheit entspricht das einem False Positive: Ein Schutzsystem schlägt bei harmloser Aktivität fälschlich Alarm.
Auch Matt Suiche sieht Probleme. Wer Fable um sicheren Code bitte, werde behandelt, als gehe es automatisch um Cybersecurity statt um normale Softwareentwicklung. Betroffen wären damit alltägliche Aufgaben wie sichere Authentifizierung, Schutz vor SQL-Injection oder das sichere Speichern von Zugangsdaten. Simone Margaritelli, bekannt als „evilsocket“, berichtet zudem, schon eine Bitte um Code Review könne eine Rückstufung auslösen.
Weitere Beispiele betreffen defensive Sicherheitsarbeit. Entwickler Mehul Mohan schreibt, Fable werde praktisch unbrauchbar, sobald Begriffe wie „cybersecurity“, „security audit“ oder „vulnerability“ auftauchten. Rob T. Lee vom SANS Institute beobachtete ähnliche Rückstufungen bei Aufgaben aus Incident Response, Detection Engineering und digitaler Forensik.
Die Forscher stellen Schutzmechanismen gegen Missbrauch nicht grundsätzlich infrage. Kritisiert wird vielmehr, dass legitime Analysen, Code Reviews und Sicherheitsaufgaben zu oft mit riskanten Anfragen gleichgesetzt werden. Offen ist, ob es sich um Startprobleme einer neuen Schutzarchitektur handelt oder um ein grundlegendes Abgrenzungsproblem. Anthropic hat sich zu den Vorwürfen bislang nicht geäußert.
