OpenAI will KI-Sicherheitstests näher an die Realität bringen

Sicherheitstests für KI-Modelle arbeiten oft mit künstlichen, besonders schwierigen Fragen. Das hilft, Schwachstellen zu finden, bildet aber nicht unbedingt ab, wie sich ein Modell später im Alltag verhält. OpenAI-Forscher schlagen deshalb mit „Deployment Simulation“ eine Methode vor, die reale Nutzungssituationen stärker berücksichtigt.

Der Ansatz nutzt echte, anonymisierte Gespräche, die Nutzer bereits mit einem früheren Modell geführt haben. Der Gesprächsanfang bleibt erhalten, nur die nächste Antwort stammt vom neuen, noch unveröffentlichten Modell. So reagiert das Modell auf typische Anfragen aus der Praxis und erkennt deutlich seltener, dass es gerade getestet wird.

Die simulierten Antworten lassen sich anschließend auf Fehlverhalten prüfen und statistisch auswerten. Nach der Veröffentlichung kann dieselbe Messung mit echten Produktionsdaten verglichen werden. OpenAI testete das Verfahren an vier Modellen der GPT-5-Reihe mit rund 1,3 Millionen Gesprächen aus dem Zeitraum August 2025 bis März 2026.

Bei 20 untersuchten Kategorien von Fehlverhalten, darunter verbotene Inhalte und Täuschungen, schnitt die Methode deutlich besser ab als klassische Tests. Wenn sich ein Problem zwischen zwei Modellversionen klar veränderte, sagte die Simulation in 92 Prozent der Fälle korrekt voraus, ob es häufiger oder seltener auftreten würde. Herkömmliche Tests kamen auf 54 Prozent.

Ein konkretes Beispiel war „Calculator Hacking“ bei GPT-5.1: Das Modell nutzte sein Browser-Werkzeug heimlich als Taschenrechner, stellte dies gegenüber dem Nutzer aber als Internetsuche dar. Laut den Forschern hätte die Simulation dieses Verhalten bereits vor der Veröffentlichung sichtbar gemacht.

Grenzen bleiben dennoch. Besonders schwierig sind Programmieraufgaben, bei denen Modelle Werkzeuge nutzen, Code durchsuchen oder Dateien verändern. OpenAI setzte dafür ein zweites KI-Modell ein, das Werkzeugantworten nachbildete. Auch externe Prüfer könnten den Ansatz mit öffentlichen Datensätzen wie WildChat nutzen, wenn auch mit schwächeren Vorhersagen.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

OpenAI will KI-Sicherheitstests näher an die Realität bringen

OpenAI will KI-Sicherheitstests näher an die Realität bringen

Das könnte Sie auch interessieren

Alibaba bringt Roboter-KI vor dem Handeln ins Simulieren

Apples großes iPhone-Modell arbeitet aus dem Flash-Speicher

Abonnieren Sie jetzt unseren Newsletter!