OpenAI präsentiert innovative Methode zur Verbesserung der Verständlichkeit und Überprüfbarkeit von KI-Texten

Eine neue Methode von OpenAI könnte das Vertrauen in KI-Systeme erheblich stärken und ihren Einsatz in kritischen Bereichen erleichtern.

OpenAI hat eine bahnbrechende Methode entwickelt, um die Verständlichkeit und Überprüfbarkeit von KI-generierten Texten zu verbessern. Diese neue Herangehensweise könnte das Vertrauen in KI-Systeme stärken und ihren Einsatz in sensiblen Bereichen wie Medizin, Recht oder Finanzen erleichtern, wo Genauigkeit und Transparenz von entscheidender Bedeutung sind.

Die Methode basiert auf sogenannten Prover-Verifier-Spielen, bei denen zwei KI-Modelle gegeneinander antreten. Ein „beweisendes“ Modell (Prover) generiert Lösungen für ein Problem, während ein „prüfendes“ Modell (Verifier) diese Lösungen auf ihre Korrektheit hin überprüft. Ziel ist es, das Beweismodell so zu trainieren, dass es Lösungen produziert, die vom Verifikationsmodell leicht nachvollziehbar sind. Dies führt zu optimierten Lösungen, die auch für Menschen einfacher zu verstehen und zu verifizieren sind.

In einer Studie verwendeten die OpenAI-Forscher ein GPT-4-Modell als Beweiser und ein deutlich schwächeres GPT-4-Modell als Verifizierer. Der Beweiser wurde abwechselnd in hilfreichen und hinterhältigen Rollen trainiert. In der hilfreichen Rolle wurde das Modell belohnt, wenn es korrekte und gut bewertete Lösungen produzierte. In der hinterhältigen Rolle wurde es belohnt, wenn es falsche Lösungen erzeugte, die den Verifizierer täuschten.

Zu Beginn des Trainings konnte der hinterhältige Beweiser den Verifizierer leicht mit falschen Lösungen täuschen. Durch das abwechselnde Training lernte der Verifizierer jedoch, auch subtile Fehler zu erkennen, was den Beweiser dazu zwang, immer neue Strategien zu entwickeln. Das Training endete, wenn der Beweiser den Verifizierer nicht mehr täuschen konnte.

Die Methode wurde an Mathematikaufgaben für Grundschüler getestet. Es stellte sich heraus, dass ein nur auf Korrektheit optimiertes Modell sehr genaue, aber schwer verständliche Lösungen erzeugte. Menschliche Prüfer machten bei der Bewertung dieser Lösungen doppelt so viele Fehler im Vergleich zu Lösungen, die mit dem neuen Ansatz generiert wurden. Die Prover-Verifier-Spiele erreichten einen guten Kompromiss zwischen Leistung und Verständlichkeit: Die Lösungen waren weiterhin sehr genau, aber deutlich leichter zu verstehen.

Die OpenAI-Forscher sehen in dieser Methode einen vielversprechenden Ansatz für die Entwicklung von KI-Systemen, deren Ergebnisse korrekt und transparent überprüfbar sind. Dies könnte das Vertrauen in KI-Anwendungen stärken und ihren Einsatz in kritischen Bereichen erleichtern. Ein weiterer Vorteil dieser Methode ist, dass sie weniger auf menschliche Anleitung und Bewertung angewiesen ist, was für die Entwicklung superintelligenter KI-Systeme von Bedeutung ist, die sich zuverlässig an menschliche Werte und Erwartungen anpassen müssen.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

OpenAI präsentiert innovative Methode zur Verbesserung der Verständlichkeit und Überprüfbarkeit von KI-Texten

OpenAI präsentiert innovative Methode zur Verbesserung der Verständlichkeit und Überprüfbarkeit von KI-Texten

Das könnte Sie auch interessieren

Fugu: Sakana AI setzt auf orchestrierte KI statt auf ein einzelnes Spitzenmodell

Veeam stellt Datenvertrauen vor reine Wiederherstellung

Abonnieren Sie jetzt unseren Newsletter!