Ein neues Feature von Google DeepMind zeigt, wie rasant sich visuelle KI weiterentwickelt – und warum „einmal hinschauen“ künftig nicht mehr reicht.
Mit Agentic Vision stattet Google sein Modell Gemini 3 Flash mit einer Fähigkeit aus, die in der Praxis einen echten Unterschied macht: Das Modell betrachtet Bilder nicht mehr nur in einem Durchlauf, sondern analysiert sie Schritt für Schritt. Möglich wird das durch einen agentischen Ansatz, bei dem Gemini eigenständig Python-Code erzeugt und ausführt, um Bildausschnitte zu vergrößern, zu drehen, zu markieren oder gezielt zu untersuchen.
Technisch folgt das System einem Think-Act-Observe-Loop. Erst wird ein Analyseplan erstellt, dann werden gezielte Bildmanipulationen durchgeführt, deren Ergebnisse wiederum in die weitere Auswertung einfließen. Das sorgt laut Google für messbare Qualitätsgewinne von fünf bis zehn Prozent in Vision-Benchmarks – ein beachtlicher Wert, gerade bei komplexen visuellen Aufgaben.
Wie relevant das ist, zeigt ein Praxisbeispiel aus der Bauwirtschaft: Das Startup PlanCheckSolver nutzt Gemini 3 Flash, um Baupläne automatisiert auf Regelkonformität zu prüfen. Durch die iterative Analyse einzelner Planbereiche konnte die Erkennungsgenauigkeit um rund fünf Prozent gesteigert werden. Auch bei Bildannotationen – etwa beim Zählen von Fingern mithilfe von Bounding Boxes – reduziert der agentische Ansatz typische Fehlerquellen deutlich.
Spannend ist zudem der Einsatz in der visuellen Mathematik. Statt Zahlen aus Tabellen in Bildern zu „erraten“, kann Gemini diese nun auslesen, Berechnungen in einer Python-Umgebung durchführen und die Ergebnisse strukturiert, etwa als Diagramm, ausgeben. Das senkt das Risiko von Halluzinationen erheblich.
Noch ist Agentic Vision nicht vollständig automatisiert: Einige Funktionen wie Bildrotation oder komplexe mathematische Auswertungen erfordern derzeit explizite Hinweise im Prompt. Google hat jedoch bereits angekündigt, diese Einschränkungen schrittweise abzubauen und die Funktion auf weitere Modellvarianten auszurollen. Derzeit steht sie über die Gemini API in Google AI Studio und Vertex AI sowie im beginnenden App-Rollout zur Verfügung.
