DeepMind hat mit „Genie 2“ eine bahnbrechende KI vorgestellt, die aus einem einzigen Bild komplexe, interaktive 3D-Spielwelten erzeugen kann. Wie funktioniert diese Technologie und welche Möglichkeiten eröffnet sie?
Das KI-Modell „Genie 2“ von DeepMind, ein sogenanntes „Foundation World Model“, ist in der Lage, vollständig interaktive 3D-Umgebungen aus einem einzigen Bild zu generieren. Diese Welten können von Menschen und KI-Agenten gleichermaßen mit Tastatur und Maus erkundet werden. Die Technologie zeigt beeindruckende Fähigkeiten, darunter die Simulation physikalischer Effekte wie Gravitation, Rauch und Wasserreflexionen sowie die konsistente Aufrechterhaltung der Umgebung und die Nachbildung des Verhaltens von computergesteuerten Charakteren (NPCs).
Technisch basiert „Genie 2“ auf einem autoregressiven, latenten Diffusionsmodell, das mit einem umfangreichen Videodatensatz trainiert wurde. Dies ermöglicht die Erzeugung von Welten, die bis zu einer Minute lang stabil bleiben, während typische Demonstrationen eine Dauer von 10 bis 20 Sekunden haben.
Ein bedeutender Fortschritt gegenüber seinem Vorgänger „Genie“ ist die Erweiterung von 2D-Plattformspielen auf komplexe 3D-Umgebungen. Das neue Modell arbeitet deutlich effizienter, indem es in reduzierter Qualität Echtzeitbetrieb ermöglicht. Der Vergleich zu früheren Projekten wie Googles GameNGen zeigt die enorme Flexibilität von „Genie 2“, das nicht auf spezifische Spiele beschränkt ist.
Ein Hauptziel des Systems ist das Training intelligenter virtueller Agenten. DeepMind demonstriert dies mit dem SIMA-Agenten, der in den generierten Umgebungen Anweisungen ausführen kann. Die Forscher hoffen, damit strukturelle Probleme beim Training von embodied agents zu lösen und Fortschritte in Richtung einer Künstlichen Allgemeinen Intelligenz (AGI) zu erzielen. Trotz dieser Errungenschaften stehen noch Herausforderungen im Raum. Die Qualität der Ausgabe schwankt erheblich, und die Konsistenz der Welten muss für längere Interaktionen weiter verbessert werden.
Mit „Genie 2“ zeigt DeepMind, wie KI-Technologie die Grenzen der virtuellen Weltgestaltung verschieben kann.