OpenAI überrascht die Fachwelt mit einer beachtlichen Leistung. Doch was steckt wirklich dahinter?
Ein experimentelles KI-Modell von OpenAI hat intern bewiesen, dass es bei der Internationalen Mathematik-Olympiade (IMO) mit den Besten mithalten kann. Das Modell erzielte beeindruckende 35 von 42 möglichen Punkten – genug für eine Goldmedaille. Die spannende Frage: Wie schafft es ein Sprachmodell, über Stunden hinweg komplexe Beweise zu liefern?
Gold ohne spezielles Training: Generalist statt Spezialist
Die Tests fanden unter denselben Bedingungen statt, die auch für menschliche Teilnehmer gelten: zwei lange Sitzungen ohne Internetzugang, Hilfsmittel oder Code – nur Text. Bemerkenswert: Laut OpenAI wurde das Modell nicht gezielt für IMO-Aufgaben trainiert, sondern als generalistisches Reasoning-Modell entwickelt. Forscher Alexander Wei von OpenAI erklärte, es handele sich um ein System, das selbstständig mehrseitige Beweise formulieren kann – möglicherweise sogar mit einer Multi-Agenten-Architektur.
Konsistenz statt Symbolik: Ein anderer Weg
Während andere Systeme wie AlphaProof von DeepMind hybride neurosymbolische Ansätze verfolgen, bleibt OpenAI bei reinem Text. Gary Marcus, KI-Forscher und Buchautor, sieht in diesem Weg eine bemerkenswerte Ausnahme, kritisiert aber wie gewohnt die mangelnde Transparenz: Wichtige Fragen zu Architektur, Kosten und Übertragbarkeit blieben unbeantwortet.
Auch Jerry Tworek, leitender Forscher bei OpenAI, betonte, dass die genutzte Reinforcement-Learning-Methode ebenfalls für andere Systeme wie den ChatGPT Agent und den erfolgreichen AtCoder-Teilnehmer eingesetzt wurde. Hier generierte das Modell ganze zehn Stunden am Stück Code.
Viel Lob, viel Kritik – und eine offene Zukunft
Der bekannte Mathematiker und Fields-Medaillist Terence Tao hatte erst kürzlich geäußert, dass IMO-Aufgaben für heutige KI noch „zu schwer“ seien. Umso überraschender ist der Erfolg von OpenAI, der viele Marktbeobachter kalt erwischte. Die große Unbekannte bleibt, wie OpenAI den Ansatz auf andere Bereiche übertragen möchte – und ob das Team endlich mehr Einblicke in die Methodik gewährt.
Am Ende bleibt: Ein Sprachmodell, das über Stunden hinweg konsistente Argumentationen führt, galt bis vor kurzem als unmöglich. Der nächste große Schritt könnte darin bestehen, dies über Tage hinweg zu tun – OpenAI arbeitet offenbar schon daran.
