Die Physik testet derzeit die Fähigkeiten moderner KI-Modelle auf einem völlig neuen Niveau – und die Ergebnisse fallen klarer aus, als vielen lieb ist. Können KI-Modelle wirklich komplexe Forschungsfragen lösen?
Der von internationalen Physikteams entwickelte CritPt-Benchmark stellt Modelle wie Gemini 3 Pro und GPT-5.1 vor Aufgaben, die unveröffentlicht, hochkomplex und realitätsnah sind. Genau hier zeigt sich eine deutliche Leistungsgrenze: Obwohl Gemini 3 Pro das Feld mit moderaten 9,1 Prozent Genauigkeit anführt, bleibt es wie alle anderen Systeme weit davon entfernt, eine autonome Forschungsrolle einzunehmen. GPT-5.1 folgt mit 4,9 Prozent, ebenfalls deutlich zu wenig für echte Forschungstauglichkeit.
Im Kern zeigt CritPt, wie anspruchsvoll die 71 Forschungsaufgaben aus Bereichen wie Quantenphysik, Astrophysik, Hochenergiephysik oder Biophysik sind. Sie entsprechen dem, was ein fähiger Doktorand leisten müsste – inklusive eigenständigem Denken, Hypothesentests und Verständnis unveröffentlichter Konzepte. Genau an dieser Stelle scheitern heutige Modelle: Sie sind hervorragend im Abrufen, Zusammenfassen und Strukturieren, aber echtes wissenschaftliches Denken bleibt ihnen verwehrt.
Für die KI-Forschung ist dieses Ergebnis dennoch wertvoll. Es setzt einen klaren Maßstab, zeigt realistische Grenzen auf und macht transparent, dass reiner Modell-Skalenwachstum nicht ausreicht. Die nächste Stufe intelligenter Systeme muss über das hinausgehen, was heute möglich ist – und genau das motiviert viele Forschungsteams weltweit.
