Manche Visionen brauchen Jahre, um Wirklichkeit zu werden. Wie hat OpenAI seinen Agenten so weit gebracht?
OpenAI hat sich einen lange gehegten Traum erfüllt: einen Agenten zu bauen, der selbstständig und effizient komplexe Aufgaben meistert. Schon 2017 warnte das hauseigene Forschungspapier „World of Bits“ vor der großen Lücke zwischen Mensch und Maschine. Casey Chu, Entwickler bei OpenAI, erklärt im Rückblick: „Dieses Projekt hat eine lange Ahnenreihe – wir nennen es intern ‚World of Bits 2‘.“
Der Agent von heute unterscheidet sich jedoch fundamental von den damaligen Ansätzen. Statt bei null zu beginnen, setzt OpenAI auf ein bereits vortrainiertes Foundation-Modell, das grundlegende Kompetenzen mitbringt. Erst danach greift das Reinforcement Learning (RL) – eine Art Feinabstimmung, die mit erstaunlich kleinen, aber hochwertigen Datensätzen auskommt. Das Team definiert zunächst, welche Fähigkeiten der Agent lernen soll, und erstellt dafür gezielte Szenarien.
Besonders spannend: der experimentelle Charakter des Trainings. „Wir geben dem Modell Werkzeuge, sperren es sinnbildlich in einen Raum und lassen es ausprobieren“, so Chu. Ob es Erfolg hat, entscheidet allein das Ergebnis. Ein Belohnungssystem bewertet, wie gut die Aufgabe gelöst wurde, und steuert so den Lernprozess. Dank dieser Methode kann OpenAI auf riesigen Rechenclustern parallel tausende Agenten trainieren – eine enorme Steigerung im Vergleich zu den frühen Experimenten.
Auch wenn der Agent für kritische Aufgaben noch nicht empfohlen wird, ist er ein beeindruckender Beweis, wie Geduld, Skalierung und kluges Training zusammenwirken.
