Spracherkennung wird günstiger und besser. Doch wie gut ist Mistrals Voxtral wirklich im Vergleich zu Whisper und ElevenLabs?
Mit Voxtral bringt das französische KI-Unternehmen Mistral AI frischen Wind in die Welt der Sprachverständnis-Modelle. Die beiden Open-Source-Modelle in den Varianten „24B“ für professionelle Produktionsumgebungen und „3B“ für lokale Edge-Deployments liefern beeindruckende Ergebnisse zu einem Bruchteil der Kosten der Platzhirsche.
Voxtral beherrscht neben klassischer Transkription auch eingebautes Q&A und Zusammenfassungen, ganz ohne zusätzliche Systeme. Auch Funktionsaufrufe direkt aus gesprochener Sprache sind möglich – ein praktisches Feature für Unternehmen mit API-basierten Workflows. Unterstützt werden dabei acht der meistgesprochenen Sprachen weltweit, darunter Deutsch, Englisch und Spanisch. Die Basis: Mistrals bewährtes Small 3.1-Modell, erweitert um ein Kontextfenster von bis zu 32.000 Token.
In Benchmarks schlägt sich Voxtral eindrucksvoll: Es übertrifft Whisper large-v3, GPT-4o mini Transcribe und Gemini 2.5 Flash in vielen Disziplinen. Selbst gegenüber ElevenLabs Scribe hat Voxtral die Nase vorn – sowohl bei englischen Aufgaben als auch bei mehrsprachigen Datensätzen wie Mozilla Common Voice oder FLEURS.
Der Clou: Mistral ruft für die API Preise ab 0,001 US-Dollar pro Minute auf – weniger als die Hälfte der Kosten von Whisper und ElevenLabs. Für Unternehmen in regulierten Branchen gibt es zusätzliche Optionen für private Deployments und branchenspezifisches Fine-Tuning. Weitere Features wie Sprecher-Segmentierung oder Emotionserkennung sind bereits angekündigt.
Voxtral steht ab sofort unter der Apache-2.0-Lizenz zum Download bereit und wird zudem bald in Mistrals eigenen Voice Mode von Le Chat integriert.
