Aktuelle Video-KI-Modelle wie OpenAIs Sora beeindrucken visuell, doch sie scheitern an physikalischem Verständnis. Sind diese Modelle wirklich in der Lage, die reale Welt sinnvoll abzubilden?
Wissenschaftler der Tsinghua-Universität und von Bytedance Research haben in einer neuen Studie untersucht, wie gut Videogeneratoren wie OpenAIs Sora die physikalischen Gesetze unserer Welt nachvollziehen können. Im Rahmen ihrer Forschung testeten sie die Modelle auf die Fähigkeit, Bewegungen und Interaktionen in drei Szenarien vorherzusagen: innerhalb bekannter Muster, außerhalb bekannter Muster und mit neuen Kombinationen bekannter Elemente. Ziel war es herauszufinden, ob die Modelle wirklich physikalische Gesetzmäßigkeiten lernen oder lediglich die Trainingsdaten nachahmen.
Fehlende Anpassung an neue Szenarien
Die Ergebnisse der Untersuchung zeigen, dass Sora und ähnliche Modelle universelle Regeln nicht verinnerlichen, sondern nur oberflächliche Merkmale der Trainingsdaten wiedergeben. So bewerten die Modelle die Farbe eines Objekts als wichtigstes Merkmal, gefolgt von Größe, Geschwindigkeit und Form. In bekannten Szenarien arbeiten die Modelle nahezu fehlerfrei, versagen jedoch bei unbekannten Abläufen, wie etwa einfachen Bewegungs- oder Kollisionsprozessen.
Mitautor Bingyi Kang illustriert dies anhand eines Beispiels: Wurden Modelle mit schnell bewegten Objekten trainiert, erkennen sie langsame Bewegungen oft nicht korrekt. Das kann dazu führen, dass ein langsamer Ball im Video plötzlich eine unnatürliche Richtungsänderung vollzieht. Größere Datenmengen und eine Skalierung der Modelle verbessern zwar die Leistung bei vertrauten und neuen Kombinationen von Mustern, lösen das Grundproblem jedoch nicht.
Begrenztes Potenzial und skeptische Stimmen
Während Forscher wie Kang darin Potenzial für spezialisierte Weltmodelle sehen, bei denen durch starke Datenanpassung in einem engen Kontext zuverlässige Simulationen möglich wären, sieht die Forschung Grenzen für ein umfassenderes Weltverständnis. OpenAI plant dennoch, Sora zu einem echten Weltmodell weiterzuentwickeln, da das Unternehmen schon jetzt Potenzial in der Erkennung von physikalischen Interaktionen und 3D-Geometrien sieht.
Auch Konkurrenten wie RunwayML, Google DeepMind und andere KI-Entwickler arbeiten an Konzepten für Weltmodelle, um KIs realitätsnah zu machen. Die Studie von Tsinghua und Bytedance dämpft jedoch diese optimistischen Erwartungen. Selbst Metas KI-Chef Yann LeCun äußert Zweifel: Die reine Vorhersage der Welt durch Pixel sei „ineffektiv und letztlich zum Scheitern verurteilt.“
Der Weg zur Realität – noch in weiter Ferne
Die Forschung zeigt, dass KI-Modelle wie Sora trotz ihres Potenzials noch nicht als Weltmodelle gelten können, die physikalische Gesetze eigenständig verstehen und umsetzen. Viele sind gespannt auf die für Februar 2024 angekündigte Veröffentlichung von Sora als Videogenerator. Die Frage bleibt, ob OpenAI und andere es schaffen werden, KIs zu entwickeln, die die physische Welt in ihrer Gesamtheit begreifen.