Microsoft präsentiert seine ersten selbst entwickelten KI-Modelle. Bedeutet das den Anfang einer neuen Unabhängigkeit von OpenAI?
Mit MAI-Voice-1 und MAI-1-Preview wagt Microsoft den Schritt in die Eigenentwicklung von KI-Modellen. Besonders MAI-Voice-1 beeindruckt: Das Modell kann eine Minute Audio in weniger als einer Sekunde generieren – und das mit nur einer GPU. Microsoft bezeichnet es als sein erstes wirklich ausdrucksstarkes Sprachmodell, das bereits in Copilot Daily und Podcasts eingesetzt wird. Nutzer können es zudem über Copilot-Labs testen und dabei Stimme sowie Sprachstil individuell anpassen.
Das zweite Modell, MAI-1-Preview, zeigt Microsofts Ambitionen im Bereich Sprach-KI. Es ist das erste End-to-End-trainierte Basismodell des Unternehmens, entwickelt mit rund 15.000 Nvidia H100-GPUs. Über die Plattform LM Arena kann es öffentlich getestet werden. Ziel ist es, ein Modell bereitzustellen, das Anweisungen zuverlässig befolgt und hilfreiche Antworten gibt. Künftig soll es für bestimmte Textanwendungsfälle in den Copilot-KI-Assistenten integriert werden.
Microsoft betont in einem Blogbeitrag seine großen Zukunftsambitionen: Statt nur auf ein Modell zu setzen, will man ein ganzes Portfolio spezialisierter KI-Systeme entwickeln, die verschiedene Nutzerbedürfnisse abdecken.
Doch die Entwicklung fällt nicht zufällig in diese Zeit. Die Beziehung zu OpenAI ist angespannt: Während Microsoft rund 13 Milliarden US-Dollar in das Unternehmen investiert hat, plant OpenAI eine Umwandlung in eine gewinnorientierte Firma und nähert sich Partnern wie Softbank an. Auch über Serverkapazitäten und geistiges Eigentum gibt es Streit. Mit den eigenen Modellen stellt Microsoft klar, dass man die Abhängigkeit von OpenAI mittelfristig verringern will. Der aktuelle Vertrag zwischen beiden läuft noch bis 2030 – wie es danach weitergeht, ist offen.
