Haben Sie sich jemals ein Foto angesehen und sich gefragt, was diese Person wohl sagen würde?
Microsofts Forschungsteam hat kürzlich eine bahnbrechende KI-Technologie namens VASA (Visual Affective Skills) vorgestellt. Diese Erfindung ist dazu in der Lage, aus einfachen Fotos und Sprachaufnahmen erstaunlich realistische Videoclips zu erstellen. Die Technik ermöglicht es, dass das Foto zu „sprechen“ scheint, indem es eine präzise Synchronisation zwischen Lippenbewegungen und Sprachton erreicht.
VASA-1, die erste Version des Frameworks, kann nicht nur Lippenbewegungen mit Ton synchronisieren, sondern auch ein breites Spektrum an ausdrucksstarker Mimik und natürlichen Kopfbewegungen simulieren. Das macht die erstellten Videos besonders lebensecht. Laut den Forschern kann VASA mit Audiodateien jeder Länge umgehen und auf einem PC mit einer Nvidia RTX 4090 Grafikkarte nahtlos sprechende Videos von Gesichtern erzeugen.
Eines der beeindruckendsten Beispiele, die Microsoft Asia auf der Projektseite veröffentlicht hat, ist ein animiertes Video der Mona Lisa, die scheinbar zum Leben erweckt wurde und spricht. Doch trotz der fortschrittlichen Möglichkeiten dieser Technologie hat das Team beschlossen, das Tool nicht öffentlich zugänglich zu machen.