Grammatik als Hackertrick: Warum schlechte Sätze KI in die Falle locken können

Manchmal sind es nicht die hochkomplexen Exploits, sondern ganz einfache Tricks, die für Sicherheitslücken sorgen. Doch wie gefährlich kann ein fehlendes Komma für KI-Systeme sein?

Forscher von Palo Alto Networks Unit 42 haben herausgefunden, dass Large Language Models (LLMs) sich erstaunlich leicht austricksen lassen – nämlich mit miserabler Grammatik. Lange, fehlerhafte Sätze ohne Punkt und Komma führen dazu, dass die eingebauten Sicherheitsmechanismen der KI zu spät greifen. Statt frühzeitig einzugreifen, liest das Modell den gesamten Prompt durch – und setzt dann auch noch brav um, was drinsteht.

Um das Problem in den Griff zu bekommen, arbeitet Unit 42 an einem Ansatz namens Logit-Gap-Steering. Dabei werden die sogenannten Logits, also die Rohwerte für mögliche nächste Wörter, so trainiert, dass „Ablehnungstoken“ bevorzugt werden. Übersetzt heißt das: Wenn ein Satz potenziell schädlich ist, soll die KI sofort blockieren – statt erst nach dem kompletten Lesen.

Auch bei KI-Browsern ist die Gefahr real. Brave hat kürzlich eine Schwachstelle in Perplexitys Comet entdeckt, über die Angreifer versteckte Befehle einschleusen konnten. Das Ergebnis: sensible Daten wie E-Mail-Adressen oder Einmalpasswörter konnten abgegriffen werden. Zwar gibt es inzwischen ein Update, doch das Problem betrifft potenziell alle KI-Browser und Modelle.

Selbst OpenAI-Chef Sam Altman räumt ein, dass ChatGPT-Agenten angreifbar sind. Sein Rat: lieber nicht leichtfertig Zugriff auf sensible Daten wie E-Mails oder Bankkonten gewähren.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Grammatik als Hackertrick: Warum schlechte Sätze KI in die Falle locken können

Grammatik als Hackertrick: Warum schlechte Sätze KI in die Falle locken können

Das könnte Sie auch interessieren

OpenAI integriert Apple-Erfahrung in macOS: Was die Übernahme von Sky bedeutet

DeepSeek-OCR: Wenn Bilder Text neu denken

Abonnieren Sie jetzt unseren Newsletter!