Ein KI-Pionier wie Andrej Karpathy sorgt immer für Aufsehen, wenn er sich äußert. Doch wie realistisch sind seine Zweifel an den derzeitigen Trainingsmethoden für große Sprachmodelle – und was könnte die Zukunft bringen?
Karpathy, früher bei Tesla und OpenAI, zeigt sich zunehmend kritisch gegenüber Reinforcement Learning (RL). Er hält Belohnungsfunktionen für unzuverlässig und manipulierbar. Das ist brisant, denn genau dieser Ansatz ist das Fundament aktueller Reasoning-Modelle, die durch logische Zwischenschritte bessere Antworten liefern sollen. Zwar gesteht Karpathy ein, dass RL-Finetuning heute Vorteile gegenüber klassischem Supervised Learning bringt, langfristig aber seien grundlegend neue Lernmechanismen nötig.
Ein spannender Gedanke von ihm ist das „System Prompt Learning“. Anders als beim bisherigen Feintuning würden Modelle hier auf Token- und Kontextebene lernen, ähnlich wie Menschen im Schlaf Informationen festigen. Parallel dazu betont Karpathy die Bedeutung von „Environments“: Trainingsumgebungen, in denen KI-Modelle aktiv handeln, Konsequenzen erfahren und so praxisnahes Feedback erhalten. Das wäre ein klarer Bruch mit den bisherigen Methoden, die vor allem auf Textnachahmung setzen.
Interessant ist auch, dass Karpathys Einschätzungen stark an die Ideen der DeepMind-Forscher Richard Sutton und David Silver erinnern. Beide sehen in eigenständigem Handeln, Beobachten und Lernen den Schlüssel, um KI robuster, kreativer und anpassungsfähiger zu machen.
Die Botschaft ist eindeutig: Für den nächsten großen Sprung in der KI-Entwicklung reichen kleine Optimierungen nicht mehr aus. Es braucht mutige Konzepte, die über klassische Belohnungssysteme hinausgehen.
