5. September 2025

Sprachmodelle im Medizintest: Warum kleine Veränderungen große Wirkung haben

Eine neue Studie zeigt, wie unsicher Sprachmodelle im medizinischen Einsatz sein können. Doch woran scheitern sie wirklich?

Große Sprachmodelle wie GPT-4o, Claude oder Gemini gelten als leistungsstark, doch sobald Fragen im Medizintest minimal verändert werden, brechen ihre Ergebnisse ein. Während klassische Modelle teils über 30 Prozentpunkte an Genauigkeit verlieren, schneiden neuere Reasoning-Modelle wie DeepSeek-R1 oder o3-mini etwas stabiler ab. Das Problem bleibt: Statt echtes klinisches Denken zu zeigen, greifen die Systeme überwiegend auf Mustererkennung zurück.

Die Forscher:innen veränderten Fragen aus dem MedQA-Benchmark so, dass die richtige Antwort immer „None of the other answers“ lautete. Klinische Experten bestätigten die Korrektheit – doch die KI-Modelle taten sich schwer, die richtige Wahl zu treffen. Selbst mit Chain-of-thought-Prompts, die den Denkprozess anregen sollen, blieb die Genauigkeit weit unter dem, was für die Medizin nötig wäre.

Das Fazit ist ernüchternd: Ein System, das bei kleinsten Abweichungen von 80 auf 42 Prozent Genauigkeit fällt, ist für den Klinikalltag kaum geeignet. Gerade dort kommt es auf robuste und verlässliche Antworten an, auch bei ungewöhnlichen Fallkonstellationen. Zwar zeigen neue Modelle leichte Fortschritte, doch von echter Zuverlässigkeit sind sie weit entfernt.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>