Manchmal sind es nicht die hochkomplexen Exploits, sondern ganz einfache Tricks, die für Sicherheitslücken sorgen. Doch wie gefährlich kann ein fehlendes Komma für KI-Systeme sein?
Forscher von Palo Alto Networks Unit 42 haben herausgefunden, dass Large Language Models (LLMs) sich erstaunlich leicht austricksen lassen – nämlich mit miserabler Grammatik. Lange, fehlerhafte Sätze ohne Punkt und Komma führen dazu, dass die eingebauten Sicherheitsmechanismen der KI zu spät greifen. Statt frühzeitig einzugreifen, liest das Modell den gesamten Prompt durch – und setzt dann auch noch brav um, was drinsteht.
Um das Problem in den Griff zu bekommen, arbeitet Unit 42 an einem Ansatz namens Logit-Gap-Steering. Dabei werden die sogenannten Logits, also die Rohwerte für mögliche nächste Wörter, so trainiert, dass „Ablehnungstoken“ bevorzugt werden. Übersetzt heißt das: Wenn ein Satz potenziell schädlich ist, soll die KI sofort blockieren – statt erst nach dem kompletten Lesen.
Auch bei KI-Browsern ist die Gefahr real. Brave hat kürzlich eine Schwachstelle in Perplexitys Comet entdeckt, über die Angreifer versteckte Befehle einschleusen konnten. Das Ergebnis: sensible Daten wie E-Mail-Adressen oder Einmalpasswörter konnten abgegriffen werden. Zwar gibt es inzwischen ein Update, doch das Problem betrifft potenziell alle KI-Browser und Modelle.
Selbst OpenAI-Chef Sam Altman räumt ein, dass ChatGPT-Agenten angreifbar sind. Sein Rat: lieber nicht leichtfertig Zugriff auf sensible Daten wie E-Mails oder Bankkonten gewähren.
