Apple sorgt aktuell mit einem frischen Konzept in der Video-KI-Forschung für Aufmerksamkeit. Doch was macht STARFlow-V so besonders – und warum lohnt sich ein genauer Blick?
Apple verfolgt bei der neuen Modellfamilie STARFlow-V einen Weg, den bisher kaum jemand im KI-Bereich gegangen ist. Statt auf weit verbreitete Diffusionsmodelle setzt das Unternehmen auf Normalizing Flows, eine Technologie, die im Video-Kontext bislang kaum eingesetzt wurde. Genau das führt zu Ergebnissen, die sich überraschend klar von anderen Systemen abheben: realitätsnähere Videos, weniger typische KI-Artefakte und eine starke Nähe zur ursprünglichen Prompt-Intention.
Besonders auffällig ist die Zielsetzung: Apple will nicht sofort ein marktreifes Produkt abliefern, sondern vor allem zeigen, was technisch möglich ist. Die Videos selbst liegen noch bei eher niedrigen 480p und sind nur wenige Sekunden lang – doch der methodische Fortschritt ist entscheidend.
STARFlow-V basiert auf 7 Milliarden Parametern, wurde auf 70 Millionen Text-Video-Paaren sowie 400 Millionen Text-Bild-Paaren trainiert und kann sowohl aus Text generieren als auch bestehende Videos erweitern und modifizieren. Längere Sequenzen entstehen schrittweise: Das Ende eines Segments wird zum Anfang des nächsten. Durch die mathematische Umkehrbarkeit der Normalizing Flows kann das Modell zudem die Wahrscheinlichkeit eines Videos exakt bestimmen – ein Alleinstellungsmerkmal gegenüber klassischen Diffusionsmodellen.
Auch architektonisch geht Apple neue Wege. Die Global-Local-Struktur sorgt für robuste zeitliche Konsistenz und stabile Details, während eine video-aware Jacobi-Iteration zu mehr Geschwindigkeit führt. Dennoch bleibt die Inferenzzeit weit entfernt von Echtzeit – ein klarer Hinweis darauf, dass es Apple derzeit um Forschung, nicht um Produktreife geht.
Natürlich ist auch STARFlow-V nicht fehlerfrei. Beispiele zeigen, wie ein Oktopus durch Glaswände läuft und ein Hamster im Laufrad seltsam entrückt wirkt. Trotzdem: Das Modell erreicht auf Benchmarks Werte, die mit aktuellen Diffusionsansätzen mithalten – wenn auch noch weit hinter Systemen wie Googles Veo 3 oder Runways Gen-3.
