OpenAI hat sein bisher leistungsstärkstes KI-Modell vorgestellt. Was macht „o3“ so besonders und wie unterscheidet es sich von früheren Modellen?
Mit „o3“ bringt OpenAI ein neues Modell, das den Fokus auf fortgeschrittenes Reasoning legt. Es setzt neue Standards in KI-Benchmarks wie dem AGI-Benchmark ARC, bei dem es eine bislang unerreichte Leistung von 75,7 % erreichte – bei erhöhter Rechenleistung sogar 87,5 %. Dieses Ergebnis unterstreicht die Fortschritte des Modells bei der Lösung neuartiger und komplexer Aufgaben.
Insbesondere in mathematischen Tests wie der AIME 2024 überzeugte „o3“ mit 96,7 % korrekter Antworten, wobei es nur eine Aufgabe verfehlte. Beim anspruchsvollen Frontier Math Benchmark übertraf es mit 25,2 % bisherige Modelle um ein Vielfaches. Auch in Software-Aufgaben zeigt „o3“ beeindruckende Fortschritte: Mit einer Genauigkeit von 71,7 % und einer deutlichen Steigerung von 20 % gegenüber dem Vorgängermodell „o1“ setzt es neue Maßstäbe.
Das Modell glänzt außerdem bei wissenschaftlichen Aufgaben auf PhD-Niveau, wo es mit 87,7 % deutlich über dem menschlichen Durchschnitt liegt. Die Fähigkeit, zur Laufzeit neue Programme zu erstellen und Lösungswege effizient zu durchdenken, hebt „o3“ von bisherigen Sprachmodellen ab. François Chollet, der Entwickler des ARC-Benchmarks, lobt diese Fortschritte als bedeutsam, betont jedoch, dass „o3“ trotz beeindruckender Ergebnisse noch keine echte künstliche allgemeine Intelligenz (AGI) darstellt. Mit einem neuen öffentlichen Sicherheitstestprogramm und der Einführung der Technik „Deliberative Alignment“ sorgt OpenAI zudem für verbesserte Sicherheitsstandards. Eine kostengünstige Mini-Version von „o3“ soll ab Ende Januar 2025 verfügbar sein und bei geringeren Kosten eine bemerkenswerte Leistung bieten. Die Vollversion wird später folgen.