Wie leistungsfähig sind KI-Modelle im medizinischen Bereich wirklich? OpenAI stellt sich dieser Frage – und präsentiert bemerkenswerte Ergebnisse.
KI auf dem Prüfstand: Ein globaler Benchmark entsteht
Mit „HealthBench“ führt OpenAI einen neuen Maßstab für medizinische KI-Bewertungen ein. Der Anspruch: realitätsnahe Gesprächssituationen abbilden – entwickelt von 262 Ärztinnen und Ärzten aus 60 Ländern. Die Testbasis ist enorm: 5.000 Szenarien aus 26 Fachgebieten und 49 Sprachen bilden den Rahmen für die Bewertung aktueller KI-Modelle.
Die Analyse erfolgt nach fünf Kriterien wie Genauigkeit oder Kontextbewusstsein, unterlegt mit 48.000 medizinisch validierten Einzelmerkmalen. Das Besondere: Die Auswertung übernimmt ein KI-Modell – GPT-4.1 – dessen Urteile eng mit den Einschätzungen menschlicher Fachkräfte übereinstimmen.
GPT-4.1 und o3: Neue Benchmark-Spitze – mit Einschränkungen
Laut OpenAI erzielen die neuen Modelle GPT-4.1 und o3 im „HealthBench“-Test bessere Ergebnisse als ärztliche Vergleichsantworten. Doch das Unternehmen relativiert selbst: Die Beantwortung medizinischer Chatfragen gehört nicht zum Alltag medizinischer Fachkräfte – der Vergleich hat daher methodische Grenzen.
Trotzdem zeigen die Ergebnisse: Während ältere KI-Modelle noch von menschlicher Nachbearbeitung profitierten, liefern GPT-4.1 und o3 inzwischen teils bessere Ergebnisse – sogar ohne ärztliche Unterstützung. Die Bewertung von o3 (0,60) liegt dabei deutlich über der des Vorgängers GPT-4o (0,32) und konkurriert mit Modellen wie Grok 3 (0,54) oder Google Gemini 2.5 (0,52).
Sicherheit, Effizienz und der Blick nach vorn
Besonders im Gesundheitswesen zählt nicht nur der Durchschnitt, sondern auch der „schlechteste Fall“. Auch hier zeigt sich OpenAIs Fortschritt: Die neuen Modelle performen robuster. Das Modell GPT-4.1 nano punktet zudem mit Effizienz – laut OpenAI 25-mal kostengünstiger als sein Vorgänger, bei besserer Leistung. Ein entscheidender Vorteil für Regionen mit knappen Ressourcen.
OpenAI legt großen Wert auf Transparenz: Alle Daten und Bewertungsansätze sind auf GitHub veröffentlicht. Mit den Zusatzdatensätzen „HealthBench Consensus“ und „HealthBench Hard“ lädt das Unternehmen Forscher ein, anspruchsvolle Standards weiterzuentwickeln.