Ein Forscherteam der Stanford University und des MIT hat mit WonderWorld ein bahnbrechendes KI-System vorgestellt, das aus einem einzigen Bild interaktive 3D-Szenen erschafft.
WonderWorld, das neueste Projekt der Stanford University und des MIT, eröffnet faszinierende Möglichkeiten in der 3D-Szenengenerierung. Nutzer können mit dieser Technologie komplette virtuelle Welten aus einem einfachen Bild heraus erschaffen und interaktiv gestalten. Das Besondere: Die Szenen werden in weniger als 10 Sekunden auf einer Nvidia A6000-GPU generiert, was eine nahtlose Echtzeitinteraktion ermöglicht – ein deutlicher Fortschritt gegenüber bisherigen Ansätzen, die Minuten oder gar Stunden benötigten.
Das System arbeitet in einer Schleife, bei der zunächst eine Szene aus einem Bild erzeugt wird, gefolgt von wechselnden Szenenbildern und sogenannten FLAGS. Diese FLAGS enthalten Informationen zu den einzelnen Ebenen der 3D-Szene, wie Vordergrund, Hintergrund und Himmel, die jeweils aus „Surfels“ bestehen. Diese Surfels sind kleine Datenpunkte, die durch ihre Position, Skalierung und Farbe die 3D-Objekte in der Szene definieren.
Das KI-System verwendet ein vortrainiertes Diffusionsmodell zur präzisen Schätzung von Tiefenkarten und zur Optimierung der generierten 3D-Geometrie. Diese Technik reduziert geometrische Verzerrungen und sorgt für flüssige Übergänge zwischen den Szenen, was in Nutzerstudien als visuell überzeugender bewertet wurde. Allerdings gibt es auch Einschränkungen: So können sich Nutzer derzeit nur begrenzt in den Welten umsehen, und es gibt Schwierigkeiten bei der Darstellung komplexer Objekte wie Bäumen. Dennoch sieht das Forscherteam Potenzial für Anwendungen in der Spieleentwicklung und virtuellen Realität, wo Designer und Spieler dynamische und sich weiterentwickelnde Welten gestalten und erkunden könnten.