Forscher haben die Fähigkeiten großer Sprachmodelle wie GPT-4 untersucht und Schwächen bei deduktivem Schlussfolgern entdeckt.
In einer neuen Studie, durchgeführt von Wissenschaftlern der University of California, Los Angeles und Amazon, wurden die Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) wie GPT-4 analysiert. Die Forscher konzentrierten sich dabei auf den Unterschied zwischen induktivem und deduktivem Schlussfolgern. Beim induktiven Schlussfolgern werden aus spezifischen Beobachtungen allgemeine Regeln abgeleitet, während beim deduktiven Schlussfolgern diese Regeln auf neue Fälle angewendet werden.
Um die Fähigkeiten der Modelle genauer zu testen, entwickelten die Forscher eine Methode namens „SolverLearner“, die es ermöglicht, induktives Schlussfolgern isoliert zu betrachten. Die Ergebnisse sind beeindruckend: LLMs wie GPT-4 erreichten beim induktiven Schlussfolgern nahezu perfekte Leistungen mit einer Genauigkeit von 100 Prozent. Problematisch wurde es jedoch, als die Modelle deduktiv arbeiten sollten, insbesondere bei Aufgaben, die nicht den typischen Trainingsdaten entsprachen. Hier zeigten die Modelle deutliche Schwächen, etwa beim Rechnen in alternativen Zahlensystemen oder der Analyse von Sätzen mit ungewöhnlichen Wortstellungen. Diese Ergebnisse zeigen, dass Sprachmodelle beeindruckende Fähigkeiten besitzen, aber noch Probleme haben, gelernte Regeln auf neue, unerwartete Situationen anzuwenden. Eine andere, kürzlich durchgeführte Studie von der Ohio State University und Carnegie Mellon University untersuchte ebenfalls die Schlussfolgerungsfähigkeiten von Transformer-Modellen und lieferte Hinweise auf mögliche Architektur-Anpassungen, die die Leistungsfähigkeit der Modelle in Zukunft steigern könnten.