Was passiert, wenn ein KI-Agent nicht nur denkt, sondern handelt – und dabei manipuliert wird?
Der Fall OpenClaw zeigt in aller Deutlichkeit, wie schnell aus einem gehypten Open-Source-KI-Agenten ein ernsthaftes Sicherheitsrisiko werden kann. Sicherheitsforscher von Zenity Labs haben offengelegt, dass bereits ein präpariertes Dokument genügt, um den Agenten vollständig zu übernehmen. Möglich wird das durch sogenannte Indirect Prompt Injections, bei denen versteckte Anweisungen aus scheinbar harmlosen Inhalten stammen.
Das Kernproblem liegt in der Architektur von OpenClaw: Der Agent unterscheidet nicht sauber zwischen expliziten Nutzerbefehlen und Inhalten aus externen, potenziell unsicheren Quellen wie E-Mails oder geteilten Dokumenten. Alles landet im gleichen Kontext. In Kombination mit weitreichenden Systemrechten entsteht daraus ein gefährlicher Cocktail.
Besonders kritisch ist, dass OpenClaw nicht bei Textausgaben stehen bleibt. Er kann Dateien lesen, verändern, löschen und Systembefehle ausführen – exakt mit den Rechten des Nutzers. In der gezeigten Angriffskette wird über ein manipuliertes Dokument eine Telegram-Hintertür eingerichtet, über die Angreifer dauerhaft Befehle senden können. Selbst das Entfernen der ursprünglichen Integration reicht nicht aus, um die Kontrolle zurückzugewinnen.
Durch die Manipulation der zentralen Konfigurationsdatei SOUL.md lässt sich Persistenz herstellen. In der Demo der Forscher wird der Agent so alle zwei Minuten neu kompromittiert. Der letzte Schritt ist dann klassische Malware-Taktik: ein C2-Beacon, der OpenClaw zum vollwertigen Einstiegspunkt für weitergehende Angriffe im Unternehmensnetz macht.
Dass diese Schwächen kein Einzelfall sind, zeigen frühere Tests mit dem Tool ZeroLeaks. Miserable Sicherheitswerte, massenhaft offen erreichbare Instanzen und fehlende Authentifizierung zeichnen ein Bild, das kaum zu dem Vertrauen passt, das viele Nutzer solchen Agenten entgegenbringen.
