Ein Forschungsteam von Google hat mit dem System ImageInWords (IIW) eine bahnbrechende Methode entwickelt, um Bildbeschreibungen erheblich zu verbessern.
Das innovative IIW-System kombiniert präzise Anleitungen für menschliche Mitarbeiter mit einem detaillierten Beschreibungsprozess. Das Resultat sind extrem detaillierte Bildbeschreibungen, die bisherige Ansätze in Benchmarks deutlich übertreffen. Herkömmliche KI-Systeme zur Bildverarbeitung verwenden oft riesige Mengen an Internetdaten, die häufig ungenau sind und simple Alt-Texte anstelle von aussagekräftigen Beschreibungen nutzen. Dies schränkt die Leistungsfähigkeit der Systeme erheblich ein. Frühere Versuche, hochwertigere Bildbeschreibungen zu erstellen, hatten ebenfalls Schwächen, da sie oft subjektive Verzerrungen oder Halluzinationen enthielten.
IIW hingegen will diese Schwächen beseitigen. Es erkennt einzelne Objekte im Bild und erstellt erste Beschreibungen für jedes Objekt. Diese dienen als Ausgangspunkt für menschliche Beschreiber, die die Beschreibungen verfeinern und erweitern. Dabei achten sie auf umfassende und genaue Details wie Funktion, Größe, Farbe, Textur, Material und Ort des Objekts. In Tests schlug Googles Methode andere Ansätze häufig. Nachfolgende Aufgaben, bei denen Eingabebilder aus Prompts rekonstruiert wurden, zeigten, dass IIW unabhängig von der Beschreibungslänge in menschlichen Bewertungen am besten abschnitt. Auch bei Aufgaben, die ein tieferes Verständnis der Bildinhalte erfordern, schnitt IIW hervorragend ab, indem es die notwendigen Details enthielt, um echte von falschen Bildinformationen zu unterscheiden. Google plant, IIW weiter zu verbessern, auf andere Sprachen auszuweiten und den Anteil menschlicher Arbeit zu reduzieren. Das System hat das Potenzial, verschiedene KI-Anwendungen zu beeinflussen, darunter Bildersuche, Erstellung synthetischer Daten und visuelle Frage-Antwort-Systeme.