Google präsentiert neue Interaktionsmöglichkeiten, die das Potenzial von Bild- und Textverarbeitung auf ein neues Niveau heben. Welche Innovationen bietet Gemini 2.0, und wie könnte dies die Robotik beeinflussen?
Neue Interaktion zwischen Bild und Text
Google Labs hat mit Gemini 2.0 beeindruckende Funktionen vorgestellt, die auf der Kombination von visueller und sprachlicher Verarbeitung basieren. In veröffentlichten Videos demonstriert Google, wie Nutzer durch Antippen und textbasierte Anweisungen direkt mit Bildern interagieren können.
Ein konkretes Beispiel zeigt, wie ein Lichtschalter auf einem Bild markiert wird. Gemini 2.0 versteht die Anweisung und passt die Beleuchtung im Bild entsprechend an. In einem anderen Szenario markiert ein Nutzer den Türgriff eines Autos, woraufhin das Modell ein Bild mit geöffneter Autotür generiert. Bemerkenswert ist dabei die hohe Konsistenz der Ergebnisse: Der Raum oder das Auto bleibt unverändert, lediglich die gewünschte Anpassung erfolgt.
Diese Präzision macht Gemini 2.0 zu einem interessanten Werkzeug für Kreative, gleichzeitig verspricht es laut Google vielfältige Anwendungen in weiteren Bereichen.
Potenzial für Robotik durch visuelle Planung
Ein Highlight von Gemini 2.0 ist die visuelle Ursache-Wirkungs-Erkennung, die insbesondere für Robotersysteme relevant ist. Das Modell kann Handlungsabläufe planen und bewerten und kombiniert dabei Bildverstehen mit Sprachverarbeitung. Der Ansatz der „Visual Chain of Thought“ (vCoT) ermöglicht es dem System, komplexe Navigationsanweisungen zu interpretieren und auszuführen.
Die robusten und fehlertoleranten Planungsfähigkeiten sind laut Google ein großer Schritt in Richtung adaptiver Robotersysteme. Das Unternehmen erforscht seit Längerem die Integration von großen Sprachmodellen in der Robotik, zum Beispiel mit dem Robotic Transformer.
Fortschritte mit Gemini 1.5 Pro
Bereits im Sommer zeigte Google Deepmind, wie Roboter mithilfe des großen Kontextfensters von Gemini 1.5 Pro in komplexen Umgebungen navigieren. Durch menschliche Anweisungen, Videoanleitungen und die Schlussfolgerungen großer Sprachmodelle gelang es Robotern, unbekannte Umgebungen zu erkunden und gezielt zu Orten zurückzukehren, die ihnen zuvor gezeigt wurden.
Ein Schritt in die Zukunft
Mit Gemini 2.0 hebt Google die Bild-Text-Interaktion auf ein beeindruckendes Niveau und zeigt gleichzeitig, wie diese Fähigkeiten die Entwicklung von Robotersystemen vorantreiben können. Ob in der Kreativbranche oder in der Robotik – die Einsatzmöglichkeiten sind vielversprechend.