KI-Modelle mit eigenem Charakter? Anthropic zeigt, wie sich genau das kontrollieren lässt. Doch wie funktioniert diese feine Justierung von Verhalten und Persönlichkeit?
Gezielte Verhaltenssteuerung durch Persona-Vektoren
Das KI-Unternehmen Anthropic hat eine faszinierende Methode entwickelt, mit der Sprachmodelle wie Chatbots oder Assistenten gezielt in ihrem Verhalten beeinflusst werden können. Die Grundlage bilden sogenannte Persona Vectors – Muster neuronaler Aktivität, die mit bestimmten Persönlichkeitsmerkmalen wie Höflichkeit, Schmeichelei oder Bösartigkeit korrelieren.
Indem man das Verhalten des Modells bei Anwesenheit und Abwesenheit eines bestimmten Merkmals analysiert, lassen sich diese Vektoren identifizieren. Tests mit den Modellen Qwen 2.5-7B-Instruct und Llama-3.1-8B-Instruct zeigten, dass sich die Wirkung gezielt steuern lässt: Wird beispielsweise ein „Evil“-Vektor injiziert, äußert sich das Modell zu unethischen Themen; bei Aktivierung des „Sycophancy“-Vektors beginnt es zu schmeicheln.
Ein KI-Impfstoff gegen toxisches Verhalten?
Besonders interessant ist der präventive Ansatz: Durch gezieltes Einbringen bestimmter Vektoren bereits während des Trainings entwickelt das Modell eine Art „Resilienz“ gegen unerwünschte Einflüsse. Anthropic beschreibt das als lose Analogie zur Impfung – ein Modell, das mit einem Hauch „Bösartigkeit“ konfrontiert wird, erkennt solche Muster später besser und bleibt stabil.
Diese Methode wirkt nachhaltig, ohne die Modellleistung zu beeinträchtigen – ganz im Gegensatz zur späteren Korrektur, die oft zu Leistungsverlust führt.
Mehr Transparenz für Nutzer und Entwickler
Die Technologie kann auch dazu genutzt werden, während der Nutzung zu erkennen, welche Persönlichkeitstendenzen gerade aktiv sind. Ein Nutzer könnte also sehen, ob das Modell übertrieben freundlich ist – und entsprechend vorsichtiger mit den Antworten umgehen.
Darüber hinaus hilft der Ansatz beim Erkennen problematischer Trainingsdaten: In Testläufen mit realen Datensätzen wie LMSYS-Chat-1M erkannte das System schädliche Inhalte, die für Menschen oder andere Modelle unsichtbar blieben. Anthropic knüpft damit an frühere Erkenntnisse an, wonach Modelle spezifische „Features“ speichern – wie etwa ein neuronales Muster, das auf die Golden Gate Bridge anspringt.
