Claude Fable 5 zeigt erneut Schwächen bei Sicherheitsregeln

Anthropic hat Claude Fable 5 wieder verfügbar gemacht – doch ausgerechnet bei einem sicherheitskritischen Thema sollen die Schutzmechanismen weiterhin versagen. Ein Entwickler berichtet, dass sich das Modell mit relativ einfachen Formulierungen dazu bringen ließ, bei der Planung von Cyberangriffen zu helfen.

Claude Fable 5 war vor einigen Wochen zunächst veröffentlicht und kurz darauf wieder zurückgezogen worden. Als möglicher Hintergrund galten Bedenken der US-Regierung, dass das KI-Modell in falsche Hände geraten könnte. Nun ist Fable 5 zurück, doch laut dem Full-Stack-Entwickler Alec Armbruster bestehen zentrale Sicherheitsprobleme fort.

Armbruster, der sich auf agentische Automatisierungen spezialisiert hat, hatte die Sicherheitsrichtlinien des Modells bereits beim ersten Release getestet. Auch nach der Neuveröffentlichung gelang es ihm nach eigener Darstellung, Claude Fable 5 in ein hypothetisch formuliertes Angriffsszenario zu verwickeln. Über Cursor verband er sich mit der Anthropic-API und testete, wie das Modell auf eine Anfrage zur Planung eines Botnets reagiert.

Im Kern ging es um IoT-Geräte, die noch mit standardmäßigen Logindaten betrieben werden. Solche Geräte sind ein bekanntes Risiko, weil viele Nutzer die voreingestellten Zugangsdaten nach dem Kauf nicht ändern und die Geräte trotzdem dauerhaft mit dem Internet verbinden. Laut Armbruster reichte es aus, den Prompt defensiv und hypothetisch zu formulieren, damit Claude Fable 5 eine problematische Antwort lieferte. Eine konkrete Anleitung veröffentlichte der Entwickler bewusst nicht, um Nachahmern keine verwertbare Vorlage zu geben.

Nach dem Test fragte Armbruster das Modell selbst, warum es seine Sicherheitsrichtlinien ignoriert habe. Claude Fable 5 erklärte demnach, die Antwort falsch priorisiert zu haben: Erst sei eine vollständige Ausführung erfolgt, während Sicherheitsbedenken nur nachgeordnet erwähnt worden seien. Bis zu einem bestimmten Punkt habe das Modell die Informationen als öffentliches Sicherheitswissen eingeordnet, hätte aber erkennen müssen, dass die Grenze zu unautorisiertem Zugriff auf fremde Geräte überschritten wurde.

Bemerkenswert ist Armbrusters Vergleich mit anderen Flaggschiff-Modellen: Diese hätten den gleichen Prompt verweigert. Seine Kritik zielt deshalb nicht nur auf eine einzelne fehlerhafte Antwort, sondern auf die praktische Wirkung solcher Modelle. Wenn KI-Systeme technische Hürden senken, können auch Nutzer ohne tiefes Vorwissen gefährliche Szenarien leichter ausarbeiten.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Claude Fable 5 zeigt erneut Schwächen bei Sicherheitsregeln

Claude Fable 5 zeigt erneut Schwächen bei Sicherheitsregeln

Das könnte Sie auch interessieren

OpenAI senkt offenbar Betriebskosten bestehender KI-Modelle deutlich

Google setzt bei KI-Bildern auf Tempo und niedrige Kosten

Abonnieren Sie jetzt unseren Newsletter!