VASA: Microsofts Neues KI-Werkzeug Lässt Fotos Sprechen

Haben Sie sich jemals ein Foto angesehen und sich gefragt, was diese Person wohl sagen würde?

Microsofts Forschungsteam hat kürzlich eine bahnbrechende KI-Technologie namens VASA (Visual Affective Skills) vorgestellt. Diese Erfindung ist dazu in der Lage, aus einfachen Fotos und Sprachaufnahmen erstaunlich realistische Videoclips zu erstellen. Die Technik ermöglicht es, dass das Foto zu „sprechen“ scheint, indem es eine präzise Synchronisation zwischen Lippenbewegungen und Sprachton erreicht.

VASA-1, die erste Version des Frameworks, kann nicht nur Lippenbewegungen mit Ton synchronisieren, sondern auch ein breites Spektrum an ausdrucksstarker Mimik und natürlichen Kopfbewegungen simulieren. Das macht die erstellten Videos besonders lebensecht. Laut den Forschern kann VASA mit Audiodateien jeder Länge umgehen und auf einem PC mit einer Nvidia RTX 4090 Grafikkarte nahtlos sprechende Videos von Gesichtern erzeugen.

Eines der beeindruckendsten Beispiele, die Microsoft Asia auf der Projektseite veröffentlicht hat, ist ein animiertes Video der Mona Lisa, die scheinbar zum Leben erweckt wurde und spricht. Doch trotz der fortschrittlichen Möglichkeiten dieser Technologie hat das Team beschlossen, das Tool nicht öffentlich zugänglich zu machen.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

VASA: Microsofts Neues KI-Werkzeug Lässt Fotos Sprechen

VASA: Microsofts Neues KI-Werkzeug Lässt Fotos Sprechen

Das könnte Sie auch interessieren

Gemma 4 E2B bringt leistungsfähige Offline-KI auf das Pixel 10

Apple prüft Zukäufe für eigene KI-Chips

Abonnieren Sie jetzt unseren Newsletter!