Wird die Zukunft der KI nicht mehr durch Texte, sondern durch eigene Erlebnisse bestimmt? Diese spannende Frage beleuchten Richard Sutton und David Silver in ihrem neuen Aufsatz.
Richard Sutton, einer der bedeutendsten KI-Forscher, formulierte bereits 2019 die „Bitter Lesson“: Der größte Fortschritt in der KI wurde nicht durch menschliche Intuition erreicht, sondern durch skalierbare, datengetriebene Lernverfahren. Maschinen, die selbstständig und mit wenig Vorwissen lernen, seien langfristig erfolgreicher als solche, die auf menschliche Voreinstellungen angewiesen sind.
Diese Erkenntnis bildet auch die Grundlage ihres aktuellen Papiers „Welcome to the Era of Experience“. Sutton und Silver schlagen einen grundlegenden Paradigmenwechsel vor: KI-Systeme sollen nicht länger menschliches Wissen nachahmen, sondern durch eigene Handlungen und Erlebnisse lernen. Der Schlüssel dazu liegt in einer kontinuierlichen Interaktion mit ihrer Umwelt – eine Perspektive, die sich deutlich vom bisherigen, textbasierten Ansatz unterscheidet.
Bestehende KI-Modelle schöpfen ihr Wissen bislang aus Milliarden menschlicher Texte. Doch die Menge verfügbarer hochwertiger Daten ist begrenzt – und echte Innovationen erfordern oft den Sprung über den aktuellen Wissensstand hinaus. Sutton und Silver sehen hier eine entscheidende Schwäche der heutigen Systeme: Sie imitieren, doch sie schaffen nichts Neues.
Die Vision: KI-Agenten, die aus eigenen Handlungen und Beobachtungen wachsen. Anstelle einmaliger Trainingsphasen sollen diese Agenten dauerhaft lernen, Erfahrungen sammeln und sich eigenständig weiterentwickeln – vergleichbar mit dem natürlichen Lernprozess von Menschen und Tieren.
Ein faszinierendes Beispiel für diesen Ansatz ist das Projekt AlphaProof: Nach einer initialen Lernphase mit menschlichen Daten erzeugte die KI durch autonome Interaktionen über 100 Millionen eigene Beweisschritte – und erreichte damit Ergebnisse, die weit über zuvor trainierte Systeme hinausgingen.
Die Autoren schlagen vor, diese Prinzipien auf praktische Bereiche zu übertragen: etwa Gesundheitsagenten, die Schlafmuster analysieren und Empfehlungen anpassen, oder Bildungssysteme, die Lernpfade individuell und dynamisch begleiten. Entscheidend ist dabei, dass nicht nur menschliche Bewertungen als Belohnung dienen, sondern reale Umweltfeedbacks – von biologischen Werten bis hin zu experimentellen Ergebnissen.
Sprachmodelle, so Sutton und Silver, sollten nicht bloß menschliche Denkweisen kopieren. Stattdessen sollen KI-Agenten eigene Weltmodelle aufbauen – interne Simulationen, mit denen sie Handlungsfolgen antizipieren können. Durch Execution Feedback – etwa beim Ausführen von Code und dem Beobachten der Resultate – lernen diese Systeme, eigenständige Strategien zu entwickeln.