Eine neue Studie zeigt, wie unsicher Sprachmodelle im medizinischen Einsatz sein können. Doch woran scheitern sie wirklich?
Große Sprachmodelle wie GPT-4o, Claude oder Gemini gelten als leistungsstark, doch sobald Fragen im Medizintest minimal verändert werden, brechen ihre Ergebnisse ein. Während klassische Modelle teils über 30 Prozentpunkte an Genauigkeit verlieren, schneiden neuere Reasoning-Modelle wie DeepSeek-R1 oder o3-mini etwas stabiler ab. Das Problem bleibt: Statt echtes klinisches Denken zu zeigen, greifen die Systeme überwiegend auf Mustererkennung zurück.
Die Forscher:innen veränderten Fragen aus dem MedQA-Benchmark so, dass die richtige Antwort immer „None of the other answers“ lautete. Klinische Experten bestätigten die Korrektheit – doch die KI-Modelle taten sich schwer, die richtige Wahl zu treffen. Selbst mit Chain-of-thought-Prompts, die den Denkprozess anregen sollen, blieb die Genauigkeit weit unter dem, was für die Medizin nötig wäre.
Das Fazit ist ernüchternd: Ein System, das bei kleinsten Abweichungen von 80 auf 42 Prozent Genauigkeit fällt, ist für den Klinikalltag kaum geeignet. Gerade dort kommt es auf robuste und verlässliche Antworten an, auch bei ungewöhnlichen Fallkonstellationen. Zwar zeigen neue Modelle leichte Fortschritte, doch von echter Zuverlässigkeit sind sie weit entfernt.
