Die jüngste Enthüllung über die verdeckte Finanzierung des Mathematik-Benchmarks FrontierMath durch OpenAI wirft Fragen auf. Wie wirken sich diese Offenlegungen auf das Vertrauen in KI-Benchmarks aus?
Ein unerwarteter Rekord enthüllt die Hintergründe
Mit der Veröffentlichung des Modells o3 und seinem beeindruckenden Benchmark-Ergebnis von 25,2 Prozent gelöster Aufgaben wurde bekannt, dass OpenAI an der Entwicklung von FrontierMath beteiligt war. Bis zu diesem Zeitpunkt hatten frühere KI-Modelle nur zwei Prozent erreicht. Doch diese Errungenschaft brachte auch unerwartete Transparenzansprüche mit sich.
Epoch AI und die Frage der Transparenz
Epoch AI, der Entwickler von FrontierMath, gestand Fehler in der Kommunikation ein. Bis zur Veröffentlichung des Modells o3 durfte die finanzielle Unterstützung von OpenAI vertraglich nicht offengelegt werden. Diese Offenlegung erfolgte lediglich in einer Fußnote des aktualisierten wissenschaftlichen Papiers. Besonders brisant: Über 60 Mathematiker, die an der Erstellung der Benchmark-Aufgaben beteiligt waren, wurden nicht systematisch über die Finanzierung informiert.
Tamay Besiroglu von Epoch AI räumte ein, dass mehr Transparenz nötig gewesen wäre, vor allem gegenüber den Beteiligten. OpenAI hatte Zugriff auf viele der Aufgaben und Lösungen, jedoch wurde ein separater Datensatz für unabhängige Tests zurückgehalten. Eine mündliche Vereinbarung sollte sicherstellen, dass OpenAI die Daten nicht für das Training ihrer Modelle verwendet.
Das Dilemma der KI-Benchmarks
Die Vorfälle zeigen, wie sensibel das Thema Benchmarking in der KI-Forschung ist. Während Benchmarks wie FrontierMath entscheidend für die Bewertung von Modellen sind, werden ihre Ergebnisse oft zur Förderung von Aufmerksamkeit und Investitionen genutzt. Elliot Glazer von Epoch AI betonte, dass eine unabhängige Evaluation des o3-Modells notwendig sei, um die Ergebnisse zu validieren.