Meta hat kürzlich ein neues multimodales Sprachmodell namens Spirit LM vorgestellt. Dieses Modell vereint Text und gesprochene Sprache in einem System und zeigt bemerkenswerte Fähigkeiten. Was bedeutet das für die Zukunft der KI?
Was ist Spirit LM und wie funktioniert es?
Das Forschungsteam FAIR von Meta hat Spirit LM entwickelt, ein multimodales Sprachmodell, das Texte und Sprache fließend miteinander integriert. Der Ansatz ähnelt OpenAIs GPT-4o und dessen Advanced Voice Mode. Interessanterweise basiert Spirit LM auf einem Textmodell, das durch kontinuierliches Training mit Sprach- und Texteingaben erweitert wurde. Text- und Sprachsequenzen werden dabei auf Wortebene kombiniert und als ein einziger Satz von Token verarbeitet. Für das Training nutzen die Forscher
einen automatisch kuratierten Korpus aus Sprache und Text.
Versionen für jede Anwendung: Mit und ohne Emotionen
Es gibt zwei Varianten von Spirit LM: das Basismodell und eine expressive Version. Während das Basismodell semantische Spracheinheiten verwendet, kann die expressive Version zusätzlich Tonhöhen und Stileinheiten erkennen, um Emotionen und Betonungen in gesprochener Sprache zu erfassen. So ermöglicht das Modell nicht nur die Umwandlung von gesprochener Sprache in Text und umgekehrt, sondern auch modalitätsübergreifende Anwendungen. Dank der Kombination semantischer und prosodischer Informationen kann Spirit LM auch komplexe Aufgaben im Few-Shot-Lernen bewältigen.
Metas Vision: Fortsetzung der Forschung und Open Science
Neben Spirit LM hat Meta weitere Fortschritte im Bereich der KI präsentiert. Dazu gehören das Segment-Anything-Modell zur Bildsegmentierung, die Beschleunigung großer Sprachmodelle durch die Lösung Layer Skip und Fortschritte bei der mehrsprachigen Modellierung mit Meta Lingua. Meta betont dabei immer wieder seine Rolle als Vorreiter für Open Science, auch wenn das Unternehmen kürzlich in die Kritik geraten war, den Begriff „Open-Source“ neu zu interpretieren.
Es bleibt abzuwarten, wie sich Spirit LM und seine Erkenntnisse in Metas KI-Plattformen integrieren lassen. Denkbar ist, dass zukünftige Llama-Modelle die Fähigkeit zur Sprachverarbeitung übernehmen und somit eine echte Konkurrenz zu GPT-4o darstellen könnten.