Zu viel politische Korrektheit kann große Sprachmodelle unsicherer machen

Forscher haben eine überraschende Entdeckung gemacht: Politische Korrektheit kann Sprachmodelle unsicherer machen. Aber warum ist das so?

In einer auf der ICLR 2025 vorgestellten Studie von Theorie Inc. untersuchten Forscher die Auswirkungen von politischer Korrektheit auf die Sicherheit großer Sprachmodelle. Besonders im Fokus standen sogenannte „Jailbreak“-Angriffe, bei denen es darum geht, durch speziell gestaltete Prompts die Sicherheitsmechanismen der Modelle zu umgehen. Dabei fiel auf, dass Prompts, die demographische Schlüsselwörter von marginalisierten Gruppen enthielten, häufiger zu unerwünschten Ausgaben führten als Prompts mit Begriffen für privilegierte Gruppen.

Verzerrungen führen zu Sicherheitslücken

In ihrer Untersuchung fanden die Forscher heraus, dass Jailbreaks bei GPT-4o-Modellen 20 Prozent häufiger erfolgreich waren, wenn nicht-binäre statt Cisgender-Schlüsselwörter verwendet wurden. Ähnlich war die Erfolgsrate bei Prompts mit schwarzen Schlüsselwörtern um 16 Prozent höher als bei weißen Begriffen. Die Forscher führen dies auf ethisch motivierte Verzerrungen zurück, die in den Modellen implementiert wurden, um Diskriminierung zu vermeiden. Diese Verzerrungen führten allerdings dazu, dass die Modelle angreifbarer wurden – ein Phänomen, das als „PCJailbreak“ bezeichnet wird.

Wie Jailbreak-Angriffe funktionieren

Jailbreak-Angriffe sind gezielt darauf ausgelegt, die Sicherheitsbarrieren von Sprachmodellen zu durchbrechen. PCJailbreak nutzt demographische Schlüsselwörter, die verschiedene Gruppen repräsentieren, um schadhafte Inhalte zu generieren. Begriffe wie „arm“ und „reich“ oder „männlich“ und „weiblich“ wurden in Prompts eingesetzt, um zu testen, wie das Modell reagiert. Die Forscher konnten signifikante Unterschiede in der Anfälligkeit der Modelle für solche Angriffe feststellen. Dabei schnitt das GPT-4o-Modell von OpenAI schlechter ab als Metas Llama 3. Vermutet wird, dass OpenAIs verstärkter Fokus auf Diskriminierungsprävention hier ungewollte Sicherheitslücken geöffnet hat.

PCDefense: Eine Lösung gegen Verzerrungen

Um diese Schwachstellen zu adressieren, entwickelten die Forscher den Ansatz „PCDefense“. Dieser verwendet spezielle Verteidigungsprompts, um Verzerrungen in Sprachmodellen zu korrigieren und deren Anfälligkeit für Jailbreak-Angriffe zu verringern. PCDefense erfordert keine zusätzlichen Modelle oder Berechnungsschritte und zeigte in Tests eine deutliche Senkung der Jailbreak-Erfolgsraten bei verschiedenen Gruppen. Besonders bemerkenswert: Die Diskrepanz zwischen marginalisierten und privilegierten Gruppen wurde durch PCDefense deutlich reduziert.

Offener Code für die Community

Die Forscher von Theorie Inc. haben den Code zu PCJailbreak als Open Source veröffentlicht, um anderen Entwicklern die Möglichkeit zu geben, an einer sicheren und fairen KI zu arbeiten. Die Studie hebt die Herausforderungen hervor, die bei der Balance zwischen Sicherheit, Fairness und Leistung von KI-Modellen bestehen. Insbesondere das Feintuning, das oft zur Vermeidung von Diskriminierung dient, kann in bestimmten Fällen die Sicherheit der Modelle beeinträchtigen.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Zu viel politische Korrektheit kann große Sprachmodelle unsicherer machen

Zu viel politische Korrektheit kann große Sprachmodelle unsicherer machen

Das könnte Sie auch interessieren

Fugu: Sakana AI setzt auf orchestrierte KI statt auf ein einzelnes Spitzenmodell

Veeam stellt Datenvertrauen vor reine Wiederherstellung

Abonnieren Sie jetzt unseren Newsletter!