Meta will mit seinem neuen KI-System eine jahrzehntealte Herausforderung lösen: automatische Spracherkennung für alle Menschen, egal wo sie leben. Kann das gelingen?
Omnilingual ASR, entwickelt von Metas Forschungsabteilung FAIR, versteht und transkribiert laut Unternehmen mehr als 1.600 Sprachen – darunter viele, für die es bislang keinerlei digitale Daten gab. Ziel ist nichts Geringeres als ein universelles Transkriptionssystem, das Sprachbarrieren technologisch überwindet.
Das System erzielt beeindruckende Werte: In 78 Prozent aller Sprachen liegt die Zeichenfehlerquote unter zehn Prozent. Besonders präzise arbeitet die KI bei Sprachen mit vielen Trainingsdaten, doch selbst bei sogenannten Low-Resource-Sprachen mit weniger als zehn Stunden Audiomaterial bleiben die Ergebnisse solide. Zusätzlich hat Meta einen frei nutzbaren Sprachkorpus mit 350 bisher unterrepräsentierten Sprachen veröffentlicht, lizenziert unter CC-BY. Diese Daten sollen Forschende und Entwickler:innen weltweit in die Lage versetzen, eigene Systeme zu trainieren oder bestehende Modelle regional anzupassen.
Eine der spannendsten Neuerungen ist der „Bring Your Own Language“-Ansatz. Mithilfe von In-Context-Learning kann die KI aus wenigen Beispielen neue Sprachen erlernen – ganz ohne zusätzliche Trainingsläufe oder teure Hardware. So ließe sich das System theoretisch auf über 5.400 Sprachen erweitern, weit über den bisherigen Branchenstandard hinaus.
Meta hat Omnilingual ASR vollständig unter der Apache-2.0-Lizenz veröffentlicht. Die Modellfamilie reicht von kompakten 300-Millionen-Parameter-Varianten für mobile Geräte bis zum leistungsstarken 7B-Modell auf Basis von FAIRs PyTorch-Framework fairseq2. Damit steht erstmals eine wirklich offene Grundlage bereit, um Spracherkennung weltweit zugänglich zu machen.
