Könnte Künstliche Intelligenz bald die staatliche Physiotherapeutenprüfung bestehen? Eine neue Studie zeigt, dass GPT-4 von OpenAI zumindest in Japan dazu fähig ist – aber nicht ohne Herausforderungen.
Die Fachzeitschrift Cureus berichtet, dass das Sprachmodell GPT-4 die staatliche Physiotherapeutenprüfung in Japan erfolgreich bestanden hat, indem es 73,4 Prozent der Fragen korrekt beantwortete. Diese Leistung ist beeindruckend, da die Prüfung aus 160 allgemeinen und 40 praktischen Fragen besteht, die Wissen, Verständnis, Analyse, Anwendung und Bewertung abdecken. Die Studie zeigt jedoch auch, dass GPT-4 Schwächen bei der Beantwortung von Fragen hatte, die Bilder oder Tabellen enthalten – ein entscheidender Aspekt in der medizinischen Ausbildung.
Die Forscher führten die Prüfung durch, indem sie 1000 Testfragen in GPT-4 eingaben und die Antworten mit den offiziellen Lösungen verglichen. Während GPT-4 bei textbasierten Fragen eine hohe Trefferquote von 80,5 % erreichte, war die Leistung bei visuellen und praktischen Fragen mit nur 35,4 % deutlich schlechter. Diese Ergebnisse unterstreichen die Einschränkungen des Modells, insbesondere in Bereichen, die über reine Textverarbeitung hinausgehen.
Die Studie weist auch darauf hin, dass GPT-4, obwohl es hauptsächlich auf einem englischsprachigen Korpus basiert, auch bei japanischen Eingaben gut abschneidet. Trotzdem warnen die Forscher, dass das Modell nicht alle Fragen korrekt beantwortet und dass die Ergebnisse durch neuere, multimodale Versionen wie GPT-4o verbessert werden könnten. Diese neueren Modelle sind von Grund auf so entwickelt, dass sie Bilder und Texte gleichermaßen verarbeiten können, was ihre Anwendbarkeit in der Medizin weiter erhöhen könnte. Der Einsatz von Künstlicher Intelligenz in der Medizin ist vielversprechend, und spezialisierte Modelle wie Med-PaLM 2 und Med-Gemini von Google zeigen bereits Potenzial. Doch trotz dieser Fortschritte bleibt die Herausforderung bestehen, LLMs sicher und zuverlässig in den medizinischen Alltag zu integrieren. Besonders im medizinischen Kontext sind falsche Antworten kritisch, weshalb ein Durchbruch in den logischen Fähigkeiten der Modelle notwendig erscheint.