Spirit LM: Metas multimodales Sprachmodell könnte den Weg für Advanced Voice Mode ebnen

Meta hat kürzlich ein neues multimodales Sprachmodell namens Spirit LM vorgestellt. Dieses Modell vereint Text und gesprochene Sprache in einem System und zeigt bemerkenswerte Fähigkeiten. Was bedeutet das für die Zukunft der KI?

Was ist Spirit LM und wie funktioniert es?
Das Forschungsteam FAIR von Meta hat Spirit LM entwickelt, ein multimodales Sprachmodell, das Texte und Sprache fließend miteinander integriert. Der Ansatz ähnelt OpenAIs GPT-4o und dessen Advanced Voice Mode. Interessanterweise basiert Spirit LM auf einem Textmodell, das durch kontinuierliches Training mit Sprach- und Texteingaben erweitert wurde. Text- und Sprachsequenzen werden dabei auf Wortebene kombiniert und als ein einziger Satz von Token verarbeitet. Für das Training nutzen die Forscher

einen automatisch kuratierten Korpus aus Sprache und Text.

Versionen für jede Anwendung: Mit und ohne Emotionen
Es gibt zwei Varianten von Spirit LM: das Basismodell und eine expressive Version. Während das Basismodell semantische Spracheinheiten verwendet, kann die expressive Version zusätzlich Tonhöhen und Stileinheiten erkennen, um Emotionen und Betonungen in gesprochener Sprache zu erfassen. So ermöglicht das Modell nicht nur die Umwandlung von gesprochener Sprache in Text und umgekehrt, sondern auch modalitätsübergreifende Anwendungen. Dank der Kombination semantischer und prosodischer Informationen kann Spirit LM auch komplexe Aufgaben im Few-Shot-Lernen bewältigen.

Metas Vision: Fortsetzung der Forschung und Open Science
Neben Spirit LM hat Meta weitere Fortschritte im Bereich der KI präsentiert. Dazu gehören das Segment-Anything-Modell zur Bildsegmentierung, die Beschleunigung großer Sprachmodelle durch die Lösung Layer Skip und Fortschritte bei der mehrsprachigen Modellierung mit Meta Lingua. Meta betont dabei immer wieder seine Rolle als Vorreiter für Open Science, auch wenn das Unternehmen kürzlich in die Kritik geraten war, den Begriff „Open-Source“ neu zu interpretieren.

Es bleibt abzuwarten, wie sich Spirit LM und seine Erkenntnisse in Metas KI-Plattformen integrieren lassen. Denkbar ist, dass zukünftige Llama-Modelle die Fähigkeit zur Sprachverarbeitung übernehmen und somit eine echte Konkurrenz zu GPT-4o darstellen könnten.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Spirit LM: Metas multimodales Sprachmodell könnte den Weg für Advanced Voice Mode ebnen

Spirit LM: Metas multimodales Sprachmodell könnte den Weg für Advanced Voice Mode ebnen

Das könnte Sie auch interessieren

Photoshop und Lightroom werden intelligenter: Adobe setzt voll auf KI im Kreativ-Workflow

FDA testet KI-Turbo für schnellere Medikamentenzulassungen

Abonnieren Sie jetzt unseren Newsletter!