Microsofts neuestes KI-System, VALL-E 2, stellt die bisherigen Möglichkeiten der Sprachsynthese in den Schatten – doch die Welt ist noch nicht bereit dafür.
In einer bahnbrechenden Entwicklung hat ein Forschungsteam bei Microsoft das Sprachsynthese-System VALL-E 2 vorgestellt, das in der Lage ist, Sprache so naturgetreu zu erzeugen, dass es die Leistung von Menschen erreicht. VALL-E 2 kann selbst komplexe Sätze und Wiederholungen verlässlich generieren, und das sogar für unbekannte Sprecher mit nur wenigen Sekunden an Sprachproben.
Zwei entscheidende Innovationen
Der Durchbruch von VALL-E 2 basiert auf zwei zentralen Neuerungen. Die erste ist die „Repetition Aware Sampling“-Methode, die sicherstellt, dass sich der Dekodierprozess dynamisch an Wiederholungen in der Ausgabesequenz anpasst. Dadurch wird die Stabilität des Prozesses erhöht und Endlosschleifen vermieden. VALL-E 2 kombiniert dabei „Nucleus Sampling“, bei dem nur die wahrscheinlichsten Codes berücksichtigt werden, und zufälliges Sampling, bei dem alle Möglichkeiten gleichberechtigt sind.
Die zweite Verbesserung betrifft die Modellierung der Codec-Codes. VALL-E 2 fasst mehrere aufeinanderfolgende Codes zu Gruppen zusammen, die als „Frames“ verarbeitet werden. Dies verkürzt die Eingabesequenz und beschleunigt die Verarbeitung. Zudem verbessert dieser Ansatz die Qualität der generierten Sprache, da er die Verarbeitung langer Zusammenhänge vereinfacht.
Überlegene Leistung in Tests
In Experimenten mit den Datensätzen LibriSpeech und VCTK hat VALL-E 2 die menschliche Leistung in Bezug auf Robustheit, Natürlichkeit und Ähnlichkeit der generierten Sprache deutlich übertroffen. Schon 3-Sekunden-Aufnahmen reichten aus, um beeindruckende Ergebnisse zu erzielen, während 10-Sekunden-Proben die Qualität noch weiter steigerten. Für das Training von VALL-E 2 werden lediglich Sprachaufnahmen und deren Transkripte benötigt, was die Datenaufbereitung im Vergleich zu anderen Ansätzen erheblich erleichtert.
Kein Release aufgrund von Missbrauchsgefahr Trotz der beeindruckenden Fähigkeiten von VALL-E 2 hat Microsoft entschieden, das System nicht zu veröffentlichen. Die Forscher betonen die potenziellen Risiken, wie etwa die unautorisierte Imitation von Stimmen. VALL-E 2 bleibt daher ein reines Forschungsprojekt, ohne Pläne für eine Integration in Produkte oder eine Veröffentlichung für die Öffentlichkeit. Die Forscher betonen die Notwendigkeit eines Protokolls, das sicherstellt, dass synthetisierte Stimmen nur mit Zustimmung der betreffenden Personen verwendet werden, sowie die Einführung eines Verfahrens zur digitalen Kennzeichnung solcher Inhalte.