Eine neue Studie wirft Licht auf die Grenzen großer Sprachmodelle und deren Fähigkeiten, wirklich logisch zu denken.
In einer aktuellen Studie des Massachusetts Institute of Technology (MIT) und der Universität Boston wurde untersucht, wie gut große Sprachmodelle wie GPT-4 tatsächlich im sogenannten „Reasoning“ sind – der Fähigkeit, logisch zu denken und Schlussfolgerungen zu ziehen. Die Ergebnisse sind ernüchternd und zeigen, dass diese Modelle oft eher auswendig gelernte Antworten wiedergeben, statt echte logische Schlüsse zu ziehen.
Sprachmodelle im Test: Kontrafaktisches Denken
Die Forscher erstellten elf spezielle Aufgaben, um die Fähigkeiten der Sprachmodelle zu testen. Diese Aufgaben umfassten kontrafaktisches Denken, bei dem es darum geht, Annahmen über nicht eingetretene Ereignisse zu treffen. Zu den Aufgaben gehörten unter anderem die Durchführung von Additionen in anderen Zahlensystemen als dem Dezimalsystem, die Beurteilung von Schachzügen oder das Zeichnen von Objekten in verschiedenen Orientierungen.
Während GPT-4 nahezu alle Standardaufgaben problemlos lösen konnte, zeigte das Modell bei den abgewandelten Aufgaben deutliche Schwächen. Besonders bei Aufgaben wie das Darstellen von Bechern mit Bubble Tea auf dem Kopf oder das Spiegeln und Drehen von Objekten wie Häusern, Pinguinen, Kuchen und Einhörnern, versagte das Modell fast vollständig.
Verallgemeinerung: Nur bedingt möglich
Die Studie zeigt, dass Sprachmodelle wie GPT-4 eine gewisse Fähigkeit zur Verallgemeinerung besitzen und in bestimmten Rahmen logisch denken können. Allerdings entsprechen die Ergebnisse nicht den hohen Erwartungen, die von Anbietern und gängigen Benchmarks suggeriert werden. Die Forscher betonen, dass die Modelle viel auswendig lernen und dieses Wissen wiedergeben können, aber nur einen kleinen Teil tatsächlich erschließen.
Menschen vs. KI: Wer denkt besser?
Abschließend stellten die Autoren der Studie die Frage, ob Menschen bei ähnlichen abweichenden Fragen ebenso schlecht abschneiden würden. Die Antwort: Menschen könnten zwar länger zur Beantwortung der Fragen benötigen, aber letztendlich bessere Antworten liefern als die KI-Modelle. Dies ist nicht die erste Untersuchung, die zeigt, dass große Sprachmodelle Schwierigkeiten bei Aufgaben aus dem Bereich des Reasonings haben – trotz anderslautender Angaben der Anbieter.