Das französische Start-up Kyutai hat in Paris den innovativen KI-Assistenten Moshi vorgestellt, der natürliche Gespräche in Echtzeit führen kann.
Kyutai behauptet, dass Moshi der erste öffentlich zugängliche KI-Assistent mit fortschrittlichen Sprachfähigkeiten ist. Im Gegensatz zu OpenAI, das diese Funktion für GPT-4o angekündigt, aber noch nicht veröffentlicht hat, ist Moshi bereits einsatzbereit. Patrick Perez, CEO von Kyutai, enthüllte, dass das achtköpfige Team nur sechs Monate benötigte, um Moshi zu entwickeln.
Was Moshi besonders macht, ist seine Fähigkeit, in Echtzeit zu sprechen und zuzuhören. Die theoretische Latenz beträgt lediglich 160 Millisekunden, in der Praxis liegt sie zwischen 200 und 240 Millisekunden. Die Architektur von Moshi basiert auf einem neuen Ansatz, den Kyutai als „Audio Language Model“ bezeichnet. Dieses Modell komprimiert Audiodaten stark und behandelt sie wie Pseudowörter, sodass Moshi direkt mit Audiodaten arbeiten und Sprache vorhersagen kann.
Für das Training nutzte Kyutai diverse Datenquellen, einschließlich menschlicher Bewegungsdaten und YouTube-Videos. Zunächst wurde ein reines Textmodell namens „Helium“ trainiert, gefolgt von einem kombinierten Training mit Text- und Audiodaten. Die Feinabstimmung erfolgte mithilfe synthetischer Dialoge. Das zugrunde liegende Sprachmodell verfügt über 7 Milliarden Parameter und zeigt trotz seiner Kompaktheit beeindruckende Sprachfähigkeiten.
Kyutai arbeitete mit der Sprecherin Alice zusammen, die Dialoge und Monologe in verschiedenen Stilen aufnahm. Diese Aufnahmen dienten dem Training eines Sprachsynthesesystems, um Moshi eine konsistente Stimme zu verleihen. Mit dieser Technologie sieht Kyutai großes Potenzial, die Kommunikation zwischen Mensch und Maschine zu verbessern, insbesondere im Bereich der Zugänglichkeit für Menschen mit Behinderungen. Moshi ist ab sofort als Demo online verfügbar und Kyutai plant, die Technologie in den kommenden Monaten als Open Source zu veröffentlichen. Ein begleitendes Paper soll ebenfalls folgen, um Entwicklern und Forschern die Möglichkeit zu geben, die Technologie zu untersuchen und weiterzuentwickeln.