Ein „GPT-3-Moment“ für die Robotik – das ist die Vision von Jim Fan, Senior Research Scientist bei Nvidia, der in naher Zukunft entscheidende Fortschritte erwartet.
Jim Fan leitet die Forschung zu verkörperter Künstlicher Intelligenz (Embodied AI) bei Nvidia und arbeitet mit seinem Team an einem Projekt namens Groot, das sich zum Ziel setzt, grundlegende Modelle für humanoide Roboter zu entwickeln. In einem Interview mit Sequoia Capital äußerte er seine Hoffnung auf einen Durchbruch in den nächsten zwei bis drei Jahren – ähnlich wie GPT-3 die Sprachverarbeitung transformierte, könnte ein vergleichbarer Moment für die Robotik bevorstehen.
Laut Fan ist die Welt auf die menschliche Form ausgerichtet. Restaurants, Fabriken und Krankenhäuser sind auf die menschliche Gestalt und Handfertigkeiten ausgelegt, was humanoiden Robotern einen entscheidenden Vorteil verschaffen könnte. Fan ist der Meinung, dass ein ausreichend entwickelter humanoider Roboter theoretisch jede Aufgabe übernehmen könnte, die ein Mensch bewältigt. Um dies zu ermöglichen, müssen die Roboter jedoch nicht nur technisch fortschrittlich, sondern auch erschwinglich und sicher sein. Datenschutz, Regulierung und die Massenproduktion sind ebenfalls kritische Faktoren, die Fans Forschung stark beeinflussen.
Nvidia verfolgt dabei eine einzigartige Strategie: Die Kombination aus Daten aus dem Internet, echten Roboterdaten und Simulationsdaten. Diese Verbindung sieht Fan als entscheidend für den Erfolg der kommenden Generation von humanoiden Robotern. Aktuell vergleicht er den Stand der Robotik mit der Phase der natürlichen Sprachverarbeitung kurz vor dem Durchbruch von GPT-3. Der größte Engpass sei derzeit die Datenbeschaffung, doch Fan betont, dass das Potenzial der Transformer-Architektur noch lange nicht ausgeschöpft sei. Sein Team arbeitet zudem an Techniken wie „Eureka“, bei der ein Sprachmodell genutzt wird, um den Trainingsprozess für Roboter-Agenten zu automatisieren. Dies eröffnet auch Perspektiven für virtuelle Welten, wie z. B. Computerspiele, was eine Verschmelzung von physischen und virtuellen Agenten langfristig möglich machen könnte.