OpenAI hat das neue KI-Modell „CriticGPT“ vorgestellt, das speziell darauf trainiert wurde, Fehler in ChatGPT-Ausgaben zu erkennen und menschliche Trainer bei der Bewertung zu unterstützen.
CriticGPT basiert auf der GPT-4-Technologie und wurde entwickelt, um die Genauigkeit und Effizienz von Bewertungen im Rahmen des Reinforcement Learning from Human Feedback (RLHF) zu erhöhen. Dieses Modell wurde durch umfangreiche Trainingsdaten optimiert, die absichtlich eingefügte Fehler enthielten. Menschliche Trainer führten manuell Fehler in ChatGPT-generierte Codes ein und erstellten Feedbackbeispiele, als ob sie diese Fehler entdeckt hätten.
Laut OpenAI können Nutzer mithilfe von CriticGPT in 60 Prozent der Fälle bessere Bewertungen von ChatGPT-Code abgeben als ohne KI-Unterstützung. In Tests bevorzugten Trainer in 63 Prozent der Fälle die Kritik von CriticGPT gegenüber der von ChatGPT bei natürlich auftretenden Fehlern. Ein wichtiger Vorteil von CriticGPT ist seine Fähigkeit, weniger „Nörgeleien“ zu produzieren und seltener Probleme zu halluzinieren. Dies führt zu umfassenderer Kritik und weniger halluzinierten Fehlern, wenn Mensch und CriticGPT zusammenarbeiten.
OpenAI plant, CriticGPT-ähnliche Modelle in den RLHF-Bewertungsprozess zu integrieren, um die Fehlererkennung weiter zu verbessern. Allerdings gibt es auch Grenzen: Die Methode wurde vorwiegend an relativ kurzen Codebeispielen getestet. Für komplexere Aufgaben könnten andere Methoden erforderlich sein. Ein weiterer Aspekt, den OpenAI hervorhebt, ist die mögliche Nutzung der Technik durch Angreifer, um Schwachstellen in Software zu identifizieren. Dennoch sieht OpenAI in CriticGPT einen vielversprechenden Ansatz, um die Erstellung besserer RLHF-Daten für Sprachmodelle zu unterstützen und langfristig „scalable Oversight“-Methoden zu entwickeln.