Mit der Goku-Reihe stellt ByteDance eine fortschrittliche Video-KI vor, die hyperrealistische Avatare generiert. Droht nun das Ende für klassische Werbedarsteller?
Die neuen Goku-Modelle von ByteDance setzen neue Maßstäbe in der KI-gestützten Medienproduktion. Besonders bemerkenswert: Eine spezielle Version erzeugt menschenähnliche Avatare, die Produkte realistisch präsentieren.
KI-gestützte Medienproduktion auf höchstem Niveau
ByteDance hat für die Entwicklung von Goku große Datenmengen aus akademischen Datensätzen, Internetquellen und Partnerorganisationen genutzt. Nach einer intensiven Filterung verblieben 160 Millionen Bild-Text-Paare und 36 Millionen Video-Text-Paare zur Modelltrainierung.
Die Goku-KI nutzt eine Transformer-Architektur mit 2 bis 8 Milliarden Parametern. Im Gegensatz zu vielen Konkurrenzmodellen kann sie sowohl Bilder als auch Videos aus Textbeschreibungen generieren. Ein gemeinsamer Encoder komprimiert die Daten und stellt so eine einheitliche Verarbeitung sicher. Anstelle herkömmlicher Diffusionsmodelle kommt eine optimierte Methode namens „Rectified Flow“ zum Einsatz, die eine höhere Qualität und Stabilität der generierten Inhalte ermöglicht.
Goku+ senkt Kosten für Werbevideos drastisch
Mit Goku+ erweitert ByteDance die Modellreihe gezielt für Werbezwecke. Die KI kann aus einfachen Texteingaben täuschend echte Videos mit lebensechten Avataren erstellen. Diese virtuellen Werbedarsteller präsentieren Produkte mit flüssigen Handbewegungen und natürlicher Mimik. Auch Produktbilder lassen sich in dynamische Clips umwandeln.
Der entscheidende Vorteil: Die Produktion solcher Videos kostet laut ByteDance nur einen Bruchteil dessen, was derzeit für echte Darsteller und Produktionsfirmen ausgegeben wird. Unternehmen könnten dadurch immense Summen sparen und gleichzeitig hochwertigere Werbeinhalte in kürzester Zeit erstellen.
Konkurrenzfähig in Benchmarks
In Tests zeigt sich die Leistungsfähigkeit der Goku-Modelle deutlich. Bei der Text-zu-Bild-Generierung erreicht Goku-T2I erstklassige Ergebnisse, während Goku-T2V in der Text-zu-Video-Kategorie mit einer Spitzenbewertung von 84,85 auf VBench überzeugt. Damit übertrifft es etablierte Modelle wie Kling oder Pika.
ByteDance hat bereits einige Beispielvideos veröffentlicht, die eindrucksvoll demonstrieren, was die KI leisten kann. Derzeit sind diese jedoch auf eine Länge von vier Sekunden bei 24 FPS in HD-Qualität (720p) beschränkt.
ByteDance und die Zukunft der Werbeindustrie
Während Goku derzeit noch als wissenschaftliche Vorschau läuft, ist eine kommerzielle Nutzung absehbar. Mit TikTok als riesiger Werbeplattform hat ByteDance einen klaren Wettbewerbsvorteil. Es ist daher nur eine Frage der Zeit, bis Goku-gestützte Videotools für Unternehmen bereitgestellt werden. Dennoch gibt es auch Herausforderungen: ByteDance sieht sich zunehmenden Sanktionen der US-Regierung ausgesetzt, was den globalen Einsatz der Technologie erschweren könnte.