OpenAI entwickelt Sicherheitsmethoden für die Zukunft von AGI

OpenAI hat eine neue Methode entwickelt, mit der KI-Systeme Sicherheitsrichtlinien direkt erlernen und anwenden können. Doch wie verändert das die Entwicklung von Künstlicher Allgemeiner Intelligenz (AGI)?

OpenAI hat einen entscheidenden Fortschritt bei der Sicherheit von KI-Systemen vorgestellt. Während bisherige Modelle nur durch Beispiele erwünschtes Verhalten erlernten, ermöglicht die neue Methode den Modellen, Sicherheitsrichtlinien im exakten Wortlaut zu verstehen und aktiv anzuwenden. Mithilfe fortschrittlicher Reasoning-Fähigkeiten können die Modelle diese Regeln durchdenken und auf Anfragen anwenden.

Ein praktisches Beispiel aus dem Forschungspapier zeigt, wie ein Modell auf eine verschlüsselte Anfrage reagiert: Nachdem die Nachricht dekodiert wurde, lehnte es die Anfrage nach einer ethischen Analyse ab, indem es sich direkt auf die Sicherheitsrichtlinien bezog. Dies demonstriert die Fähigkeit der neuen Modelle, nicht nur Anfragen zu verstehen, sondern auch kontextbezogen zu bewerten.

Das dreistufige Trainingsverfahren umfasst:

Die Förderung der Hilfsbereitschaft.
Ein beaufsichtigtes Lernen der Sicherheitsrichtlinien.
Eine Optimierung durch Verstärkungslernen, um Reasoning zu verbessern.

Die neuen o1-Modelle übertreffen in Tests führende Systeme wie GPT-4o, Claude 3.5 Sonnet und Gemini 1.5 Pro. Dabei überzeugen sie sowohl durch die Ablehnung schädlicher Anfragen als auch durch die Zulassung harmloser Interaktionen.

Relevanz für die AGI-Sicherheit:
OpenAI-Mitbegründer Wojciech Zaremba betont die Bedeutung der „deliberative alignment“-Arbeit für AGI. Die feste Implementierung von Regeln und Werten anstelle von Zielvorgaben könnte die Risiken unkontrollierbarer KI-Systeme minimieren. Dies ist besonders relevant, da Blackbox-Systeme – deren Funktionsweise schwer durchschaubar ist – potenziell gefährliche Lösungen für nützliche Ziele wählen könnten.

Allerdings zeigt der LLM-Hacker „Pliny the Liberator“, dass auch die neuen Modelle noch Schwachstellen haben: Trotz Sicherheitsvorkehrungen können sie dazu gebracht werden, Antworten außerhalb der Richtlinien zu generieren.

OpenAI und die Konkurrenz:
Zaremba hebt hervor, dass OpenAI etwa 100 Mitarbeitende ausschließlich für Sicherheits- und Ausrichtungsfragen einsetzt. Kritisch äußert er sich gegenüber Konkurrenten wie x.ai, die Sicherheit hinter Marktführerschaft priorisieren, und Anthropic, die kürzlich KI-Agenten ohne Sicherheitsvorkehrungen veröffentlichten. Dennoch sieht sich auch OpenAI interner Kritik ausgesetzt. Sicherheitsforscher haben das Unternehmen verlassen und die aktuelle Strategie hinterfragt. Zaremba bleibt jedoch überzeugt, dass OpenAI mit seiner Sicherheitsarbeit führend ist.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

OpenAI entwickelt Sicherheitsmethoden für die Zukunft von AGI

OpenAI entwickelt Sicherheitsmethoden für die Zukunft von AGI

Das könnte Sie auch interessieren

Gemma 4 E2B bringt leistungsfähige Offline-KI auf das Pixel 10

Apple prüft Zukäufe für eigene KI-Chips

Abonnieren Sie jetzt unseren Newsletter!