Maschinen, die die physische Welt verstehen – das ist die Vision von Fei-Fei Li, einer der einflussreichsten KI-Forscherinnen unserer Zeit. Doch was genau steckt hinter dem Begriff „räumliche Intelligenz“?
Fei-Fei Li, Professorin an der Stanford University und Mitbegründerin von ImageNet, nennt räumliche Intelligenz die „nächste große Grenze“ der KI. Ihr Ziel: Systeme zu schaffen, die nicht nur Text verstehen, sondern die physische Welt in all ihren Dimensionen begreifen – also Raum, Bewegung und physikalische Zusammenhänge. Erst dadurch könnten Maschinen zu echten, kreativen Partnern werden.
Heute stoßen selbst modernste Modelle wie ChatGPT oder Gemini an ihre Grenzen, wenn es um reales Denken im Raum geht. Sie können keine Entfernungen abschätzen, keine Objekte gedanklich drehen und keine physikalischen Prozesse korrekt vorhersagen. Li vergleicht das mit einem blinden Fleck der KI – denn während Menschen ihre Umwelt als Ganzes wahrnehmen, fehlt Maschinen noch die Fähigkeit, Dinge in Relation zu setzen.
In ihrem Start-up World Labs arbeitet Li daher an sogenannten „Weltmodellen“. Diese sollen weit über klassische Sprachmodelle hinausgehen: Sie kombinieren Wahrnehmung, Handlung und Interaktion in einem System, das versteht, wie Objekte zueinander stehen und wie sie sich verändern. Dafür sind neue Architekturen nötig, die 3D- und sogar 4D-Strukturen verarbeiten können – eine gewaltige technische Herausforderung.
Das Ziel ist klar: KI, die physikalisch konsistente Welten erzeugen, navigieren und simulieren kann. World Labs hat mit „Marble“ bereits ein erstes Modell vorgestellt, das 3D-Umgebungen aus multimodalen Eingaben erzeugt. Noch steht die Forschung am Anfang, doch die potenziellen Anwendungen reichen von Robotik über Materialwissenschaft bis hin zu Experimenten in bislang unzugänglichen Umgebungen.
Fei-Fei Li blickt dabei weit nach vorn: „Räumliche Intelligenz ist das Fundament des Denkens – wer sie Maschinen beibringt, eröffnet ihnen eine neue Dimension des Verstehens.“
