Mirage verbessert das räumliche Gedächtnis von Video-KI

Lange Kamerafahrten sind für generative Videomodelle schwierig: Was passiert, wenn eine KI in einen Raum zurückkehrt und die Szene wieder genauso aussehen soll wie zuvor?

Mit Mirage stellt ein Forschungsteam mehrerer Universitäten gemeinsam mit Microsoft Research ein neues Video-Weltmodell vor, das genau dieses Problem adressiert. Das Modell soll räumliche Strukturen über längere Sequenzen stabil halten und dabei den bisherigen Umweg über pixelbasierte Speicher vermeiden.

Video-Weltmodelle erzeugen aus einem Startbild und einer vorgegebenen Kamerabewegung plausible Bewegtbilder, etwa für Simulationen oder World-Simulatoren. Ohne räumliches Gedächtnis können solche Systeme jedoch auseinanderdriften: Eine bereits gezeigte Ecke sieht beim Zurückkehren anders aus, Möbel verschieben sich oder Texturen verändern sich.

Bisherige Ansätze wie Voyager, WonderWorld oder Spatia nutzen dreidimensionale Punktwolken, die laufend mit Farbinformationen erweitert werden. Bei jedem Generierungsschritt müssen diese Punktwolken gerendert und anschließend wieder in den internen Featureraum des Modells übersetzt werden. Das Paper beschreibt diesen Prozess als doppeltes Nadelöhr, weil er rechenintensiv ist und beim Gang durch den Pixelraum Informationen verloren gehen können.

Mirage setzt anders an. Statt sichtbare Farbpunkte zu speichern, legt das System interne Bildmerkmale ab, mit denen das Diffusionsmodell ohnehin arbeitet. Diese Merkmale erhalten jeweils eine Position im dreidimensionalen Raum und bilden so ein räumliches Langzeitgedächtnis. Für eine neue Perspektive projiziert Mirage diese Datenbank direkt auf die Zielkamera und gibt das Ergebnis ohne Render- und Re-Kodierschritt an den Generator weiter.

Das Modell arbeitet abschnittsweise. Aus dem Startbild wird zunächst der räumliche Speicher aufgebaut. Danach liest Mirage passende Informationen aus diesem Speicher, erzeugt neue Frames und schreibt stabile Inhalte zurück in den Cache. Bewegte Objekte und der Himmel werden vor dem Speichern herausgefiltert, damit vor allem verlässliche Geometrie im Langzeitgedächtnis bleibt.

Als technische Grundlage dient das offene Alibaba-Videomodell Wan2.2. Die Forschenden trainieren es nicht komplett neu, sondern ergänzen ein kleines Zusatzmodul und passen das System anschließend mit ressourcenschonenden LoRA-Adaptern weiter an.

In Benchmarks liegt Mirage vor Spatia, das seinen Speicher weiterhin über Farbpunkte organisiert, und deutlich vor allgemeinen Videogeneratoren wie Wan2.1 oder CogVideoX. Auf dem Datensatz RealEstate10K erreicht Mirage im Closed-Loop-Test bei zwei von drei Kennzahlen den besten Wert. Dieser Test gilt als anspruchsvoll, weil die Kamera an den Ausgangspunkt zurückkehrt und sich kleine Fehler über die Strecke summieren.

Bei der Effizienz ist der Unterschied besonders groß: Der Aufwand pro Bild bleibt nach dem ersten Abschnitt nahezu konstant. Gegenüber farbbasierten Vergleichssystemen nennen die Forschenden bis zu 10,57-fach schnellere Generierung und bis zu 55-fach geringeren Speicherbedarf.

Eine Einschränkung bleibt: Bewegte Akteure werden über Abschnittsgrenzen hinweg nicht erinnert, weil ihre Geometrie unzuverlässig ist und bewusst ausgefiltert wird. Szenen mit viel Bewegung profitieren daher weniger als ruhige Innenräume. Die Speicherung dynamischer Inhalte bleibt eine naheliegende nächste Forschungsfrage.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Mirage verbessert das räumliche Gedächtnis von Video-KI

Mirage verbessert das räumliche Gedächtnis von Video-KI

Das könnte Sie auch interessieren

Google macht KI-Wissen mit Markdown portabler

Apple öffnet seine Cloud-KI für kleinere App-Entwickler

Abonnieren Sie jetzt unseren Newsletter!