KI kann heute beeindruckende Videos erzeugen, doch was fehlt noch, damit daraus wirklich zusammenhängende Geschichten entstehen?
Mit StoryMem adressiert ByteDance gemeinsam mit der Nanyang Technological University eines der zentralen Probleme moderner KI-Videogenerierung: fehlende visuelle Konsistenz über mehrere Szenen hinweg. Während Modelle wie Sora oder Veo einzelne Clips auf hohem Niveau liefern, geraten Charaktere, Umgebungen und Details bei längeren Erzählungen schnell durcheinander.
Der neue Ansatz setzt genau hier an. Statt alle Szenen gleichzeitig zu berechnen oder sie isoliert zu erzeugen, speichert StoryMem gezielt visuell relevante Schlüsselbilder früherer Szenen in einer Memory-Bank. Diese dienen dem Modell bei jeder neuen Szene als visuelle Erinnerung. Ein intelligenter Auswahlmechanismus stellt sicher, dass nur aussagekräftige und qualitativ hochwertige Frames gespeichert werden, wodurch der Speicherbedarf kontrollierbar bleibt.
Technisch wird diese visuelle Vergangenheit über eine spezielle Positionskodierung in das Modell eingebettet. Die gespeicherten Bilder werden als zeitlich zurückliegende Ereignisse interpretiert, was dem Modell ein konsistentes Verständnis der bisherigen Geschichte ermöglicht. Besonders praxisnah ist dabei der Trainingsansatz: Statt seltener, langer Videosequenzen genügen hunderttausende kurze Clips, um das System effektiv zu erweitern.
Die Resultate sind überzeugend. In Benchmarks und Nutzerstudien zeigt StoryMem deutlich stabilere Charakterdarstellungen, stimmigere Umgebungen und insgesamt eine höhere visuelle Qualität als bisherige Verfahren. Darüber hinaus eröffnet das Framework neue Einsatzszenarien, etwa die Einbindung realer Personen oder Orte über Referenzbilder sowie weichere Übergänge zwischen Szenen.
Gleichzeitig bleiben Grenzen sichtbar. Komplexe Szenen mit vielen Figuren oder stark variierende Bewegungsdynamiken stellen weiterhin Herausforderungen dar. Dennoch markiert StoryMem einen wichtigen Schritt hin zu KI-generierten Videos, die nicht nur beeindrucken, sondern auch erzählen können.
