Die Sicherheitsfirma Codewall hat einen offensiven KI-Agenten auf McKinseys interne KI-Plattform Lilli angesetzt – ein System, das von mehr als 43.000 Mitarbeitenden für Strategieanalysen, Recherche und Dokumentenauswertung genutzt wird. Das Ziel: herausfinden, wie robust die Sicherheitsarchitektur tatsächlich ist. Das Ergebnis fiel überraschend aus. Innerhalb von nur zwei Stunden gelang es dem Agenten, vollständigen Lese- und Schreibzugriff auf die Produktionsdatenbank zu erhalten – und das ganz ohne Zugangsdaten oder Insiderwissen.
Der Einstiegspunkt war eine SQL-Injection-Schwachstelle, eine der ältesten bekannten Sicherheitslücken in der Softwareentwicklung. Bemerkenswert ist jedoch die Art, wie sie ausgenutzt wurde: Nicht über klassische Eingabewerte, sondern über JSON-Feldnamen, die direkt in SQL-Abfragen eingebunden wurden. Genau dieser ungewöhnliche Angriffsvektor sorgte dafür, dass herkömmliche Sicherheits-Scanner die Lücke nicht erkannten.
Nach mehreren automatisierten Abfragezyklen konnte der KI-Agent zunehmend mehr Informationen aus Fehlermeldungen gewinnen, bis schließlich echte Produktionsdaten zurückgegeben wurden. Die Dimension des möglichen Zugriffs war enorm: 46,5 Millionen Chat-Nachrichten, 728.000 Dateien und rund 57.000 Nutzerkonten waren theoretisch erreichbar – ohne Authentifizierung.
Besonders kritisch: Auch die System-Prompts, die das Verhalten der KI-Plattform steuern, befanden sich in derselben Datenbank. Mit Schreibzugriff hätten diese verändert werden können – und damit auch die Antworten und Empfehlungen der KI selbst. Manipulierte Finanzmodelle, verzerrte Strategieanalysen oder unbemerkte Datenabflüsse über KI-Antworten wären denkbare Folgen gewesen. Da Änderungen an Prompts kaum klassische Log-Spuren hinterlassen, wäre eine solche Manipulation nur schwer zu entdecken.
Hinzu kam Zugriff auf die RAG-Wissensbasis der Plattform: rund 3,68 Millionen Dokumentenfragmente, die das interne Wissen von Lilli speisen – darunter vermutlich jahrzehntelang aufgebaute Frameworks, Analysen und Methoden.
McKinsey reagierte schnell: Nach der Meldung am 1. März wurden die Schwachstellen innerhalb eines Tages geschlossen. Eine nachträgliche forensische Untersuchung ergab laut Unternehmen keine Hinweise darauf, dass Kundendaten oder vertrauliche Informationen tatsächlich abgegriffen wurden.
Der Vorfall zeigt jedoch ein strukturelles Problem moderner KI-Systeme: Klassische Sicherheitslücken können plötzlich deutlich größere Auswirkungen haben, weil Prompts, Wissensdatenbanken und Modellkonfigurationen häufig in denselben Datenbanken liegen wie andere Systemdaten. Eine alte Schwachstelle wird damit zum Hebel, der das Verhalten einer KI für Tausende Nutzer verändern könnte.
Codewall spricht daher von einem neuen kritischen Angriffsziel: der Prompt-Ebene. Unternehmen haben jahrzehntelang ihre Infrastruktur geschützt – Server, Code und Lieferketten. Doch die Sicherheitsarchitektur rund um KI-Prompts und Wissensdatenbanken wird vielerorts noch unterschätzt.
Der Fall bei McKinsey ist deshalb weniger ein klassischer Hack als vielmehr ein deutliches Warnsignal: Wer KI-Systeme produktiv einsetzt, muss deren Sicherheitsarchitektur genauso konsequent behandeln wie jede andere geschäftskritische IT-Infrastruktur.
