Stability AI und Arm haben gemeinsam einen bedeutenden Schritt gemacht, um generative KI-Audio-Modelle direkt auf Smartphones zu bringen. Wie genau funktioniert diese Technologie und was bedeutet das für die Zukunft der mobilen Audio-Erstellung?
Stability AI hat zusammen mit dem Chip-Designer Arm das generative Audio-Modell „Stable Audio Open“ für die Nutzung auf Smartphones optimiert. Dieses Modell ermöglicht es, Soundeffekte und Audio-Samples direkt auf mobilen Geräten zu erzeugen – und das ganz ohne Internetverbindung. Dabei greifen sie auf die KleidiAI-Bibliotheken von Arm zurück, um die Leistung des Modells speziell für Smartphone-CPUs zu verbessern.
Die eigentliche Herausforderung bestand in der Optimierung der Verarbeitungszeit. Während die Audio-Generierung anfangs noch etwa 240 Sekunden auf einer Arm-CPU beanspruchte, gelang es den Entwicklern durch die sogenannte Destillation des Modells sowie die Nutzung eines speziellen Software-Stacks von Arm, diese Zeit auf unter 8 Sekunden für einen 11-Sekunden-Clip zu reduzieren. Das bedeutet eine beeindruckende 30-fache Beschleunigung der Verarbeitungszeit. Auch wenn Stability AI bislang noch keine detaillierten technischen Informationen oder wissenschaftlichen Veröffentlichungen bereitgestellt hat, zeigt sich bereits das Potenzial dieser Optimierungen.
Diese Entwicklung hat noch einen weiteren Vorteil: Da das Modell vollständig auf Arm-CPUs läuft, sind keine leistungsstarken Hardware-Komponenten nötig. Nutzer können somit auch auf weniger leistungsfähigen Geräten von dieser Technologie profitieren.
Erweiterte Pläne für mobile KI-Modelle
Audio ist für Stability AI erst der Anfang. Das Unternehmen plant bereits, weitere fortschrittliche Modelle für die Bereiche Bild-, Video- und 3D-Generierung auf mobile Geräte zu bringen. Die Zusammenarbeit mit Arm soll dabei helfen, hochwertige Medien direkt auf Mobilgeräten zu erzeugen. Das bereits im Sommer 2024 vorgestellte Stable Audio Open ermöglicht die Erstellung von bis zu 47 Sekunden langen Audiodaten basierend auf Textbeschreibungen. Dabei ist das Modell besonders für die Erzeugung von Drumbeats, Instrumentalriffs, Umgebungsgeräuschen und anderen Produktionselementen ausgelegt. Im Gegensatz zur kommerziellen Variante Stable Audio 2, die sich auf die Erstellung kompletter Songs konzentriert, richtet sich Stable Audio Open stärker an die Erzeugung kürzerer Samples.
Ein strategischer Richtungswechsel?
Die jüngsten Entwicklungen könnten auch einen strategischen Wandel für Stability AI andeuten. Das Unternehmen hatte in letzter Zeit mit finanziellen Herausforderungen und personellen Umstrukturierungen zu kämpfen. Seit Juni 2024 steht ein neuer CEO an der Spitze, der offenbar einen neuen Kurs einschlägt. Während Stability AI zuvor vor allem durch die Veröffentlichung neuer Bild-Modelle der Stable-Diffusion-Reihe auffiel, scheint der Fokus nun stärker auf mobil ausführbaren Modellen zu liegen. Diese Strategie könnte dem Unternehmen neue Märkte erschließen und die Nutzung von KI-Modellen auf mobilen Geräten deutlich vereinfachen – ein spannender Ausblick für die Zukunft der KI-basierten Mediengenerierung.