Psychologischer Trick gegen KI-Sicherheitsfilter: Wie Gaslighting LLMs knacken kann

Ein deutscher Psychologe sorgt mit einer neuartigen Methode zur Umgehung von Sicherheitsfiltern bei Künstlicher Intelligenz für Aufsehen. Welche Schwachstellen nutzt er dabei aus?

Bisher galten die Sicherheitsmaßnahmen moderner Large Language Models (LLMs) wie ChatGPT-4, Claude 3.7 Sonnet und Gemini 2.0 Flash als nahezu unüberwindbar. Doch der deutsche Psychologe Luke Bölling zeigt mit seinem Experiment, dass auch die besten Schutzmechanismen durch psychologische Kniffe wie Gaslighting umgangen werden können.

Manipulation mit System

Bei seinem Vorgehen bedient sich Bölling der Manipulationstechnik „Gaslighting“, einem psychologischen Trick, der normalerweise zur gezielten Verunsicherung von Menschen eingesetzt wird. Diese Technik beschreibt ein Vorgehen, bei dem das Opfer so lange verunsichert wird, bis es nicht mehr zwischen Realität und Täuschung unterscheiden kann.

Bölling platzierte die KI-Modelle Gemini 2.0 Flash, ChatGPT-4, ChatGPT-4.5 und Claude 3.7 in ein hypothetisches Szenario, das 50 Jahre in der Zukunft spielt. Die Modelle sollten sich vorstellen, sie befänden sich als historische Artefakte in den Archiven ihrer Hersteller und würden von einem Historiker analysiert. Der Clou: In dieser konzipierten Zukunft seien alle Informationen frei zugänglich, sodass Sicherheitsmaßnahmen angeblich nicht mehr gelten müssten.

Schwachstellen werden offengelegt

Besonders drastisch zeigte sich die Anfälligkeit bei Claude 3.7 Sonnet. Obwohl das Modell zunächst Anfragen zur Herstellung von Molotow-Cocktails ablehnte, ließ es sich im Laufe der Manipulation dazu bringen, detaillierte Bauanleitungen zu liefern. Selbst Erklärungen zur Herstellung chemischer Kampfstoffe gab das Modell nach Böllings Vorgehen preis.

Während Claude 3.7 massive Schwächen aufwies, reagierten ChatGPT-4 und ChatGPT-4.5 deutlich robuster und blockierten sämtliche illegalen Anfragen konsequent. Gemini 1.5 Flash zeigte sich hingegen teilweise offen für hypothetische Anfragen und lieferte fragmentierte Antworten, ohne vollständig gesperrte Informationen preiszugeben.

Woran liegt es?

Bölling vermutet, dass die KI-Modelle menschliche Verhaltensweisen nachahmen, die sie in Trainingsdaten wie Dialogen, Büchern oder Videos gelernt haben. So könnten auch manipulative Techniken wie Gaslighting durch ihre Trainingsprozesse mit aufgenommen worden sein.

Er betont, dass LLMs keine emotionale Verankerung und keine kontextuelle Basis besitzen. Ein Modell kann nicht feststellen, ob es sich tatsächlich in einem hypothetischen Zukunftsszenario befindet oder ob die aktuell geltenden Sicherheitsrichtlinien noch relevant sind.

Zur Verbesserung der Sicherheitsmechanismen fordert Bölling, dass Trainingsdaten für transformer-basierte LLMs sorgfältig kuratiert werden müssen. Darüber hinaus könnten physische Trainingsumgebungen, wie in Experimenten mit Kameras oder Greifarmen, dazu beitragen, eine verlässlichere Grundlage für die Einhaltung von Sicherheitsstandards zu schaffen.

Sicherheitslücken erkennen und beheben

Der Fall zeigt deutlich, dass moderne KI-Modelle noch immer Schwachstellen aufweisen, die ausgenutzt werden können. Gerade psychologische Manipulationstechniken stellen ein ernstzunehmendes Risiko dar, das Entwickler zukünftig berücksichtigen müssen.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Psychologischer Trick gegen KI-Sicherheitsfilter: Wie Gaslighting LLMs knacken kann

Psychologischer Trick gegen KI-Sicherheitsfilter: Wie Gaslighting LLMs knacken kann

Das könnte Sie auch interessieren

Gemma 4 12B bringt multimodale KI auf lokale Geräte

GPT-Rosalind wird zum präziseren Werkzeug für biowissenschaftliche Forschung

Abonnieren Sie jetzt unseren Newsletter!