Meta hat ein neues KI-Modell veröffentlicht, das sich wie ein Kind die Welt erschließen soll. Klingt spannend? Ist es auch!
Was steckt hinter V-Jepa 2 und warum könnte es die Zukunft smarter Roboter entscheidend mitprägen?
Ein smarter Blick auf die physikalische Welt
Während viele Tech-Unternehmen an einer generativen Superintelligenz tüfteln, geht Meta – genauer gesagt das FAIR-Team aus Paris – einen anderen Weg. Das Ziel: Advanced Machine Intelligence, kurz AMI. Mit V-Jepa 2 stellt das Team rund um Turing-Preisträger Yann LeCun ein Modell vor, das die physikalische Welt besser verstehen und vorhersagen soll – ganz ohne Sprachdaten, nur mit Beobachtung.
Anders als viele generative Modelle basiert V-Jepa 2 auf Videodaten und kommt ohne manuelle Annotationen aus. Stattdessen lernt es durch selbstüberwachtes Lernen – ein Zweiphasentraining bereitet das Modell zunächst allgemein vor, bevor es handlungsbasiert feinjustiert wird.
Vom Videoclip zum greifenden Roboter
Das Ziel? Roboter sollen eigenständig und flexibel handeln können – auch in unbekannten Situationen. Und das klappt: Meta setzt das System etwa auf einen Spot-Roboter von Boston Dynamics an, der eigenständig Objekte identifiziert, aufnimmt und transportiert. Gesteuert wird er über eine Quest-Brille, bei der der Mensch jederzeit eingreifen kann.
Mit seinen 1,2 Milliarden Parametern liefert V-Jepa 2 bereits erste beeindruckende Resultate: Zero-Shot-Planung in unbekannten Umgebungen mit Objekten, die es im Training nie gesehen hat.
Kein Text, keine Sprache – nur echte Welt
LeCun sieht in der Sprache keine geeignete Repräsentation der Welt. „Pixel-Vorhersagen sind keine gute Idee, wenn du verstehen willst, wie ein Ball fällt“, sagt er. Deshalb baut V-Jepa auf Beobachtung – ganz so wie Kinder die Welt lernen, lange bevor sie sprechen.
Begleitet wird das Modell von zwei neuen Benchmarks: IntPhys 2 für physikalische Plausibilität und MVPBench für tiefes physikalisches Verständnis über Videofragen. Beide Benchmarks zielen darauf ab, echte Intelligenz zu testen, nicht bloß Tricks durch visuelle Hinweise.
Und Meta? Spielt auf zwei Hochzeiten
Während das Pariser Team an AMI arbeitet, baut Mark Zuckerberg in San Francisco parallel ein Team für generative KI auf – inklusive möglicher Übernahme des Datenspezialisten Scale AI. Ein interner Wettlauf der Ansätze also – und beide könnten sich am Ende ergänzen.