Eine aktuelle Studie zeigt, dass KI-Modelle oft mehr über ihre Fehler wissen, als sie preisgeben, und eröffnet damit spannende Perspektiven für die Verbesserung der Systeme.
Ein Forscherteam der Technion-Universität, Google und Apple hat untersucht, wie gut große Sprachmodelle ihre eigenen Fehler erkennen. Die Studie, mit dem Titel „LLMs Know More Than They Show“, beleuchtet die bisher wenig erforschte Fähigkeit von Künstlicher Intelligenz, ihre internen Verarbeitungsprozesse zu analysieren und daraus zu lernen.
Im Mittelpunkt der Untersuchung standen sogenannte „exakte Antwort-Tokens“ – jene Elemente einer KI-Antwort, die die korrekte Information enthalten. Ein Beispiel: Bei der Frage „Was ist die Hauptstadt von Frankreich?“ wäre das Wort „Paris“ das exakte Antwort-Token. Die Forscher fanden heraus, dass diese Tokens oft Anzeichen darüber geben, ob die Antwort richtig oder falsch ist. Spannend ist dabei die Entdeckung, dass KI-Modelle häufig intern die korrekte Antwort „wissen“, aber trotzdem eine falsche Antwort ausgeben.
Besonders interessant ist die potenzielle Anwendbarkeit dieser Erkenntnisse: KI-Systeme könnten bald in der Lage sein, ihre eigenen Fehler besser zu erkennen und zu korrigieren, was die Zuverlässigkeit und Genauigkeit erheblich steigern könnte. Ein zusätzlicher Schwerpunkt lag darauf, ob sich diese Fehlererkennungsmechanismen auch auf andere Aufgaben übertragen lassen – mit positiven Ergebnissen.