KI-Experten fordern neue Wege: Karpathy über die Grenzen des Reinforcement Learning

Ein KI-Pionier wie Andrej Karpathy sorgt immer für Aufsehen, wenn er sich äußert. Doch wie realistisch sind seine Zweifel an den derzeitigen Trainingsmethoden für große Sprachmodelle – und was könnte die Zukunft bringen?

Karpathy, früher bei Tesla und OpenAI, zeigt sich zunehmend kritisch gegenüber Reinforcement Learning (RL). Er hält Belohnungsfunktionen für unzuverlässig und manipulierbar. Das ist brisant, denn genau dieser Ansatz ist das Fundament aktueller Reasoning-Modelle, die durch logische Zwischenschritte bessere Antworten liefern sollen. Zwar gesteht Karpathy ein, dass RL-Finetuning heute Vorteile gegenüber klassischem Supervised Learning bringt, langfristig aber seien grundlegend neue Lernmechanismen nötig.

Ein spannender Gedanke von ihm ist das „System Prompt Learning“. Anders als beim bisherigen Feintuning würden Modelle hier auf Token- und Kontextebene lernen, ähnlich wie Menschen im Schlaf Informationen festigen. Parallel dazu betont Karpathy die Bedeutung von „Environments“: Trainingsumgebungen, in denen KI-Modelle aktiv handeln, Konsequenzen erfahren und so praxisnahes Feedback erhalten. Das wäre ein klarer Bruch mit den bisherigen Methoden, die vor allem auf Textnachahmung setzen.

Interessant ist auch, dass Karpathys Einschätzungen stark an die Ideen der DeepMind-Forscher Richard Sutton und David Silver erinnern. Beide sehen in eigenständigem Handeln, Beobachten und Lernen den Schlüssel, um KI robuster, kreativer und anpassungsfähiger zu machen.

Die Botschaft ist eindeutig: Für den nächsten großen Sprung in der KI-Entwicklung reichen kleine Optimierungen nicht mehr aus. Es braucht mutige Konzepte, die über klassische Belohnungssysteme hinausgehen.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

KI-Experten fordern neue Wege: Karpathy über die Grenzen des Reinforcement Learning

KI-Experten fordern neue Wege: Karpathy über die Grenzen des Reinforcement Learning

Das könnte Sie auch interessieren

OpenAI integriert Apple-Erfahrung in macOS: Was die Übernahme von Sky bedeutet

DeepSeek-OCR: Wenn Bilder Text neu denken

Abonnieren Sie jetzt unseren Newsletter!