4. April 2025

MoCha: Metas neues KI-System für realistische Charakteranimationen

Meta überrascht mit einem innovativen KI-Modell, das Charakteranimationen mit beispielloser Präzision erzeugt. Doch wie weit ist diese Technologie wirklich?

Mit „MoCha“ haben Meta und die University of Waterloo ein System entwickelt, das weit mehr leistet als bisherige KI-Modelle zur Videogenerierung. Anstatt sich auf einzelne Gesichtsanimationen zu beschränken, ist MoCha in der Lage, komplette Charakteranimationen aus Text und Sprache zu erzeugen. Dazu gehören nicht nur Lippensynchronisation, sondern auch Gestik, Bewegung und Interaktionen zwischen verschiedenen Figuren.

Ganzkörperanimationen statt statischer Gesichter

Der große Unterschied zu bisherigen Modellen: MoCha arbeitet nicht nur mit Gesichtsanimationen, sondern erzeugt auch Ganzkörperbewegungen, die aus verschiedenen Kameraperspektiven betrachtet werden können. Das System basiert auf einem leistungsstarken Diffusions-Transformer-Modell mit 30 Milliarden Parametern und produziert hochauflösende Videos von etwa fünf Sekunden Länge mit 24 Bildern pro Sekunde.

Ein zentrales Merkmal des Systems ist der sogenannte „Speech-Video Window Attention“-Mechanismus, der typische Probleme bei der Lippensynchronisation umgeht. Anstatt wie herkömmliche Modelle Audiodaten in voller Auflösung zu verarbeiten und dabei zeitlich zu komprimieren, ermöglicht MoCha jedem Videoframe nur auf relevante Audiosegmente zuzugreifen. Diese Herangehensweise sorgt nicht nur für flüssigere Übergänge, sondern auch für eine präzisere Synchronisation zwischen Bild und Ton.

Erweiterte Trainingsmethoden für mehr Vielfalt

Für das Training von MoCha nutzten die Forschenden 300 Stunden an sprachgesteuertem Videomaterial. Um die Vielfalt an Bewegungsmustern weiter zu erhöhen, wurde dieses Material mit textbasierten Videosequenzen kombiniert. Auf diese Weise lernt MoCha, ein breites Spektrum an Ausdrucksformen und Interaktionen zu generieren.

Ein weiteres Highlight: Das System ermöglicht auch die Animation mehrerer Charaktere gleichzeitig. Über ein speziell entwickeltes Prompt-System können Figuren mit ihren Eigenschaften definiert und mit einfachen Tags wie „Person1“ oder „Person2“ markiert werden. So lassen sich Szenen effizienter und mit weniger Aufwand gestalten.

Konkurrenz und mögliche Anwendungen

MoCha zeigte sich in Tests mit 150 Szenarien überlegen, insbesondere in Bezug auf Lippensynchronisation und Natürlichkeit der Bewegungen. Meta positioniert sich mit dieser Entwicklung weiterhin stark im Bereich der Videomodellierung, während Konkurrenten wie ByteDance mit Modellen wie INFP, OmniHuman-1 und Goku parallel arbeiten.

Die potenziellen Einsatzgebiete von MoCha sind vielfältig: Von digitalen Assistenten über virtuelle Avatare bis hin zu Anwendungen in Werbung und Bildung. Noch ist unklar, ob Meta das System quelloffen zugänglich machen wird oder es lediglich als Forschungsdemo präsentiert.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>