Kann eine KI ihre eigenen Fehler erkennen und korrigieren? OpenAIs o1-mini gibt eine beeindruckende Antwort darauf.
Eine neue Studie, durchgeführt von renommierten Institutionen wie der Chinese University of Hong Kong, Shenzhen, und dem Qwen Team von Alibaba, setzt OpenAIs o1-mini ins Rampenlicht. Mit einer innovativen Methode namens RealCritic wurde untersucht, wie gut KI-Modelle ihre eigenen Fehler erkennen und verbessern können.
Die Ergebnisse sprechen für sich: Während viele Modelle durch Selbstkritik ihre Leistung sogar verschlechterten, zeigte o1-mini eine Steigerung von durchschnittlich 3,3 %. Besonders beeindruckend war die Verbesserung bei mathematischen Aufgaben wie College-Math-Problemen mit 24 % und ARC-Aufgaben mit 19,4 %.
RealCritic, die neue Testmethode, hebt sich durch ihren „geschlossenen Kreislauf“ ab. Sie bewertet nicht nur, ob eine KI ihre Fehler erkennt, sondern auch, ob sie diese tatsächlich beheben kann. Im Vergleich dazu waren frühere „offene“ Benchmarks weniger aussagekräftig, da sie keine verbesserte Problemlösung verlangten.
Neben o1-mini wurden GPT-4o, Modelle der Qwen2.5-Familie, Mistral Large und Llama 3.1 analysiert. Auffällig: Claude-Modelle sowie der o1-Pro-Modus wurden nicht in die Tests einbezogen. Dennoch stach o1-mini bei Fremdkritik (Cross-Critique) mit einer Verbesserungsrate von 15,6 % und bei iterativer Kritik mit konstanten Steigerungen über drei Runden hervor. Ein weiterer Teilnehmer, Qwen2.5-72B-Instruct, bewies Stabilität über mehrere Runden, blieb jedoch hinter der Präzision von o1-mini zurück.