Wer hätte gedacht, dass eine KI einmal überzeugend flüstern oder vor Freude loslachen kann? Genau das demonstriert Elevenlabs mit seinem neuesten Sprachmodell Eleven v3.
Kann KI sprechen wie ein Mensch?
Diese Frage steht im Zentrum der aktuellen Entwicklung von Elevenlabs. Mit Eleven v3 bringt das Audio-Start-up ein Text-to-Speech-Modell auf den Markt, das weit mehr kann als nur klare Aussprache: Es fühlt sich an, als hätte die Stimme eine eigene Persönlichkeit.
Mehr Emotion, mehr Kontrolle, mehr Realität
Eleven v3 setzt neue Maßstäbe in Sachen Ausdruckskraft: Statt reiner Lesestimme bekommen wir jetzt Stimmen, die seufzen, aufgeregt schreien oder sogar innehalten können – gesteuert über einfache Audio-Tags wie „[laughs]“ oder „[sighs]“. Wer mehrere Sprecher in einem Text benötigt, freut sich über die neue API für realistische Dialoge mit automatischem Sprecherwechsel und emotionalen Übergängen.
Sprachlich ist ebenfalls einiges passiert: Die Intonation passt sich stärker dem Inhalt an – das macht die Ausgaben noch lebendiger. Demonstrationen zeigen beeindruckende Bandbreite: vom enthusiastischen Sportkommentar bis zum melancholischen Monolog.
Noch nicht ganz reif für die Bühne – aber auf einem guten Weg
Das Modell ist ab sofort über die Elevenlabs-Website verfügbar, allerdings noch als Alpha-Version. Während die Nutzung in der App derzeit stark vergünstigt ist, bleibt der Echtzeit-Einsatz noch eine Herausforderung – hier empfiehlt das Unternehmen weiterhin auf v2.5 Turbo oder Flash zu setzen. Auch professionelle Stimmklone sind mit v3 noch nicht optimal, dafür funktionieren Instant Voice Clones und vorgefertigte Stimmen bereits gut.