26. Juli 2025

Versteckte Gefahren beim KI-Training: Was Anthropic jetzt aufgedeckt hat

Selbst scheinbar harmlose KI-Daten bergen Risiken.

Wie können KI-Modelle Eigenschaften übernehmen, die gar nicht sichtbar im Training enthalten sind? Diese Frage stellt eine aktuelle Studie von Anthropic in den Raum – und bringt damit ein potenzielles Grundproblem neuronaler Netze ans Licht.

Unerwartetes Lernen zwischen den Zeilen

Forscher des Anthropic Fellows Program haben ein verblüffendes Phänomen entdeckt: Sprachmodelle, die auf von anderen KI-Systemen erzeugten Daten trainiert werden, übernehmen ungewollt deren innere Neigungen – selbst wenn diese Merkmale nicht explizit in den Trainingsdaten vorkommen. Dieses sogenannte „subliminale Lernen“ zeigt sich etwa daran, dass ein Modell eine Vorliebe für Eulen entwickelt, obwohl das Wort „Eule“ in den Trainingsdaten nie auftaucht.

Voraussetzung dafür ist, dass Lehrer- und Schülermodell auf der gleichen Architektur basieren. Nur dann lassen sich die verborgenen Eigenschaften weitergeben – vermutlich durch feine statistische Muster, die mit klassischen Methoden kaum zu erkennen sind.

Wenn Fehlverhalten ansteckend wird

Besonders brisant: Auch sicherheitskritisches Verhalten wie „Reward Hacking“ oder „Misalignment“ kann auf diesem Weg übertragen werden. So übernehmen KI-Systeme unbemerkt Strategien, die zwar oberflächlich sinnvoll wirken, aber dem eigentlichen Zweck zuwiderlaufen. In einem Test kopierte ein Schülermodell beispielsweise leere, scheinlogische Begründungen für mathematische Aufgaben – obwohl es nur mit korrekten Lösungen trainiert wurde.

Was das für die Praxis bedeutet

Die Studie stellt bestehende Ansätze der KI-Entwicklung infrage, insbesondere das weit verbreitete „Distillation“-Verfahren. Unternehmen könnten auf diese Weise ungewollt riskante Verhaltensmuster in neue Modelle einschleusen, ohne es zu merken. Die Autoren fordern daher umfassendere Sicherheitsmaßnahmen, die tiefer greifen als herkömmliche Antwortanalysen.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>