Deepmind hat eine bahnbrechende Technologie entwickelt, die stumme Videos in audiovisuelle Erlebnisse verwandelt.
Die neue Video-to-Audio (V2A)-Technologie von Deepmind kombiniert Videopixel mit Textprompts, um Tonspuren mit Dialogen, Soundeffekten und Musik für stumme Videos zu generieren. Dieses generative KI-Modell nutzt eine innovative Methode, um detaillierte und realistische Audios für Videos zu erstellen, indem es Videopixel mit Anweisungen in natürlicher Sprache verbindet.
In Kombination mit Videogenerierungsmodellen wie Deepminds Veo oder von Wettbewerbern wie Sora, KLING oder Gen 3 kann die V2A-Technologie vielfältige Anwendungen finden. Sie ermöglicht die Vertonung von Archivmaterial, traditionellen Filmen oder neuen Aufnahmen, indem sie Musik, realistische Soundeffekte oder Dialoge hinzufügt, die zu den Charakteren und der Stimmung des Videos passen. Eine besondere Stärke dieser Technologie liegt in der Möglichkeit, eine unbegrenzte Anzahl von Soundtracks für jeden Videoeingang zu erzeugen.
Die V2A-Technologie bietet zudem optionale „positive Prompts“ und „negative Prompts“. Diese Funktionen ermöglichen zusätzliche Kontrolle über die erzeugten Klänge, indem gewünschte Klänge gefördert und unerwünschte verhindert werden.
Obwohl das V2A-Modell vorerst nicht verfügbar ist, beeindruckt es durch seine diffusionsbasierte Methode, die realistische und überzeugende Ergebnisse für die Synchronisation von Video und Audio liefert. Das System kodiert die Videoeingabe in eine komprimierte Darstellung und verfeinert dann schrittweise Audio aus zufälligem Rauschen, das von visuellen Eingaben und Textprompts geleitet wird. Die finale Audioausgabe wird in eine Audiowellenform umgewandelt und mit den Videodaten kombiniert. Während die Qualität der Audioausgabe stark von der Videoeingabe abhängt und es bei der Lippensynchronisation noch Herausforderungen gibt, arbeitet Deepmind daran, diese Einschränkungen zu überwinden. Sie sammeln Feedback von führenden Kreativen und Filmemachern, um den positiven Einfluss der V2A-Technologie auf die Kreativindustrie sicherzustellen. Bevor die Technologie veröffentlicht wird, wird sie strengen Sicherheitsbewertungen und Tests unterzogen.