Eine neue Studie zeigt, dass generative KI-Modelle ihre menschlichen Trainer übertreffen können – ein Durchbruch, der das Potenzial der Künstlichen Intelligenz in einem neuen Licht erscheinen lässt.
Forscher der Harvard University, UC Santa Barbara und Princeton University haben in einer bahnbrechenden Studie das Phänomen der sogenannten „Transzendenz“ untersucht. Im Mittelpunkt ihrer Forschung steht das KI-Modell „ChessFormer“, das auf Schachpartien von Spielern mit begrenzter Spielstärke trainiert wurde. Überraschenderweise konnte ChessFormer in einigen Fällen besser spielen als alle Spieler im Trainingsdatensatz.
Normalerweise werden KI-Modelle darauf trainiert, menschliches Verhalten nachzuahmen. Doch die Forscher zeigen, dass diese Modelle durch Low-Temperature Sampling in der Lage sind, ihre menschlichen Trainer in bestimmten Bereichen zu übertreffen. Beim Low-Temperature Sampling wird nur das Token mit der höchsten Wahrscheinlichkeit gewählt, wodurch eine Art Mehrheitsentscheidung getroffen wird. Diese Methode gleicht eventuelle Fehler einzelner Experten aus und hebt die Leistung des Modells über die der besten menschlichen Experten.
Empirische Tests bestätigten diesen Effekt: ChessFormer-Modelle, die auf Spielen von Spielern mit maximalen ELO-Bewertungen von 1000, 1300 und 1500 trainiert wurden, erreichten bei niedrigen Temperaturen ELO-Bewertungen von bis zu 1500 – deutlich über dem Maximum der Trainingsdaten. Diese Leistungsverbesserung resultiert aus signifikant besseren Zügen in wenigen entscheidenden Spielsituationen. Die Forscher betonen, dass eine vielfältige Datenbasis eine notwendige Bedingung für die effektive Mehrheitsentscheidung ist. Modelle, die nur auf Spielern bis 1500 Wertungspunkten trainiert wurden, konnten ihre Trainer aufgrund mangelnder Datenvielfalt nicht übertreffen. Die Studie zeigt die Möglichkeit, KI-Modelle zu entwickeln, die nicht nur menschliche Experten imitieren, sondern deren Fähigkeiten in bestimmten Bereichen sogar übertreffen können. Laut den Forschern führt Low-Temperature Sampling nicht zu neuen abstrakten Überlegungen, sondern eher zu einer Entrauschung von Fehlern.