OpenAI arbeitet genau an diesem Problem und hat dafür einen neuen Trainingsdatensatz namens IH-Challenge vorgestellt. Ziel ist es, KI-Modelle zuverlässiger darin zu machen, vertrauenswürdige Anweisungen klar über weniger vertrauenswürdige zu stellen.
Der Hintergrund: Moderne KI-Systeme erhalten ihre Instruktionen aus vielen unterschiedlichen Quellen. Dazu gehören Systemrichtlinien, Vorgaben von Entwicklern, Eingaben von Nutzern und Inhalte aus externen Tools. Wenn sich diese Anweisungen widersprechen, kann ein Modell leicht die falsche Entscheidung treffen. Genau an dieser Stelle entstehen Sicherheitsprobleme – etwa wenn Prompt-Injection-Angriffe erfolgreich Sicherheitsregeln umgehen.
Mit IH-Challenge bringt OpenAI den Modellen eine klare Hierarchie bei. Die Priorität lautet: System > Entwickler > Nutzer > Tool. Ein Modell soll also immer zuerst den Systemrichtlinien folgen, danach Entwickleranweisungen berücksichtigen und erst anschließend Nutzereingaben oder Informationen aus Tools bewerten.
Interessant ist auch der technische Ansatz. Während frühere Trainingsmethoden teilweise auf andere Sprachmodelle zur Bewertung angewiesen waren, setzt OpenAI nun auf automatische Prüfungen mit Python-Skripten. Das reduziert Fehler in der Bewertung und sorgt für klar messbare Ergebnisse. Gleichzeitig erweitert der Datensatz die Instruktionshierarchie um eine zusätzliche Entwickler-Ebene.
In Tests zeigt ein internes Modell namens GPT-5 Mini-R bereits deutliche Fortschritte. Besonders bei Konflikten zwischen Entwickler- und Nutzereingaben priorisiert das Modell nun deutlich zuverlässiger. Gleichzeitig bleiben die allgemeinen Fähigkeiten der KI weitgehend erhalten – ein wichtiger Punkt, damit Sicherheit nicht zulasten der Nützlichkeit geht.
Ein weiterer Vorteil: Das Modell erkennt deutlich besser Prompt-Injection-Angriffe, die über externe Tools eingeschleust werden. Dabei verstecken Angreifer manipulierte Anweisungen etwa in Tool-Ausgaben oder Dokumenten, die die KI verarbeitet.
Gerade für zukünftige agentische KI-Systeme, die selbstständig Tools nutzen oder Dokumente analysieren, wird diese Fähigkeit entscheidend. Nur wenn Modelle zuverlässig zwischen legitimen und manipulativen Anweisungen unterscheiden können, lassen sich solche Systeme sicher betreiben.
OpenAI hat den Datensatz auf Hugging Face veröffentlicht, damit auch andere Forschende daran arbeiten und die Sicherheit von KI-Systemen weiter verbessern können.
