Entdecken Sie Voicebox, die neueste Errungenschaft in der Welt der generativen KI, die die Art und Weise, wie wir mit Audio interagieren, revolutionieren könnte.
Meta hat kürzlich eine fortschrittliche Entwicklung in der Welt der Künstlichen Intelligenz vorgestellt: Voicebox. Diese neue Sprach-KI wird als die vielseitigste und fortschrittlichste ihrer Art beschrieben, mit der Fähigkeit, Audio-Dateien in beispielloser Weise zu bearbeiten, zu sampeln und zu verändern. Voicebox wurde darauf trainiert, eine Vielzahl von Aufgaben zu erfüllen, von der Erkennung des Audio-Styles basierend auf einer nur zwei Sekunden langen Aufnahme bis hin zur Anwendung dieses Stils auf Text.
Im direkten Vergleich mit Microsofts VALL-E zeigt Voicebox bemerkenswerte Verbesserungen. Bei Tests zur Wortfehlerrate in Zero-Shot Text-to-Speech-Aufgaben erzielte Voicebox eine Rate von nur 1,9% im Vergleich zu VALL-Es 5,9%. Auch in Bezug auf die Audioähnlichkeit übertraf Voicebox mit einer Bewertung von 0,681 den Konkurrenten, der auf 0,58 kam. Nicht zu vergessen ist die Geschwindigkeit, mit der Voicebox arbeitet – sie ist bis zu zwanzigmal schneller als VALL-E.
Ein besonderes Highlight von Voicebox ist seine Fähigkeit, unerwünschte Audioelemente wie Hundegebell aus Aufnahmen zu entfernen, indem es diese Passagen künstlich neu schafft, ohne das unerwünschte Geräusch. Ebenso kann Voicebox Versprecher erkennen, filtern und ersetzen. Darüber hinaus unterstützt Voicebox Übersetzungen und Text-zu-Audio-Umwandlungen in sechs Sprachen, darunter auch Deutsch. Trotz der beeindruckenden Fähigkeiten hat Meta entschieden, Voicebox aufgrund der potenziellen Missbrauchsgefahr nicht öffentlich zugänglich zu machen. Das Unternehmen hat jedoch einen hochwirksamen Klassifikator entwickelt, der zwischen authentischer Sprache und mit Voicebox erzeugtem Audio unterscheiden kann, um die Risiken zu minimieren. Voicebox basiert auf einem Flow-Matching-Modell, einem nicht-autoregressiven generativen Modell, das ein nicht-deterministisches Mapping zwischen Text und Sprache ermöglicht. Für die Entwicklung wurden 50.000 Stunden gesprochener Sprache und die Transkripte von Audiobüchern verwendet.