Bytedance legt mit Seedance 2.0 eindrucksvoll nach. Schon das Vorgängermodell gehörte zur Spitzengruppe der KI-Videogenerierung – nun erweitert das Unternehmen die Fähigkeiten deutlich. Besonders bemerkenswert ist die konsequente Multimodalität: Bilder, Videos, Audio und Text lassen sich parallel verarbeiten. Bis zu zwölf Dateien können kombiniert werden, darunter mehrere Referenzbilder, Videosequenzen und Audiospuren. Die resultierenden Clips sind zwar mit vier bis fünfzehn Sekunden noch kurz, integrieren jedoch automatisch Musik oder Soundeffekte.
Aus strategischer Sicht ist vor allem die sogenannte Referenzfähigkeit spannend. Seedance 2.0 übernimmt auf Wunsch Kameraführung, Bewegungsabläufe und Spezialeffekte aus vorhandenen Videos, tauscht Figuren aus oder verlängert bestehende Sequenzen nahtlos. Damit verschiebt sich der Fokus von reiner Generierung hin zu echter KI-gestützter Postproduktion. Selbst komplexe Anweisungen mit Verweisen auf mehrere Bild- und Videodateien lassen sich per Text steuern – ein deutlicher Schritt in Richtung produktionsnaher Workflows.
Gleichzeitig bleibt ein kritischer Blick wichtig: Die veröffentlichten Demos stammen vom Anbieter selbst und dürften Best-Case-Szenarien darstellen. Aussagen zu Stabilität im Alltagsbetrieb, Rechenzeit oder Kosten fehlen bislang. Auch Compliance-Vorgaben spielen eine Rolle – realistische menschliche Gesichter werden aktuell blockiert.
Interessant ist zudem der zeitliche Kontext. Nur wenige Tage zuvor stellte Konkurrent Kuaishou sein Modell Kling 3.0 vor, ebenfalls mit multimodaler Ausrichtung. Die Börse reagierte prompt: Medien- und KI-Aktien in China legten teils zweistellig zu. Das zeigt, wie stark technologische Durchbrüche inzwischen direkt mit wirtschaftlichen Erwartungen verknüpft sind.
