Mit DreamDojo stellt Nvidias KI-Forschung ein Open-Source-Weltmodell vor, das Motorsteuerungsbefehle entgegennimmt und daraus eine visuelle Simulation zukünftiger Zustände erzeugt – ganz ohne klassische 3D-Engine oder händisch modellierte Physik. Jim Fan, Director of AI bei NVIDIA, spricht nicht ohne Grund von „Simulation 2.0“. Der Ansatz verschiebt den Fokus weg von aufwendig konstruierten Simulationsumgebungen hin zu datengetriebenen Weltmodellen.
Das Grundproblem in der Robotik ist bekannt: Training in realer Umgebung kostet Zeit, Geld und Nerven. Hardware verschleißt, Tests bergen Risiken, Szenarien müssen ständig neu aufgebaut werden. DreamDojo setzt genau hier an. Das Modell wurde mit 44.000 Stunden menschlicher Ego-Perspektiv-Videos vortrainiert. Über sogenannte latente Aktionen werden menschliche Bewegungen in ein hardwareunabhängiges Format übersetzt. Dadurch lernt das System aus menschlichen Demonstrationen, ohne jemals einen konkreten Roboter gesehen zu haben. Erst im zweiten Schritt erfolgt die Anpassung an die spezifische Mechanik eines Zielsystems.
Technisch läuft DreamDojo in Echtzeit mit etwa zehn Bildern pro Sekunde. Möglich sind VR-gestützte Fernsteuerung in der Simulation, Bewertung alternativer Handlungsstrategien sowie vorausschauende Planung direkt im Weltmodell. Laut Nvidia sind sämtliche Gewichte, der Code und die zugrunde liegenden Daten offen zugänglich. Die Basis bildet Nvidia Cosmos, was die Integration in bestehende KI-Ökosysteme zusätzlich erleichtert.
