21. März 2024

Google Research revolutioniert mit neuem Bild-Sprache-Modell die Art, wie KI Grafiken versteht

Stellen Sie sich eine Welt vor, in der Künstliche Intelligenz (KI) komplexe grafische Oberflächen ebenso leicht versteht wie menschliche Texte.

Google Research hat kürzlich ein innovatives Bild-Sprache-Modell vorgestellt, das darauf abzielt, die Kommunikation zwischen Menschen und Maschinen weiter zu revolutionieren. Dieses Modell kann bildliche Sprache – einschließlich grafischer Oberflächen, Symbole, Infografiken, Tabellen und Layouts – verstehen und für große Sprachmodelle nutzbar machen.

Die Forscher haben das KI-Modell speziell trainiert, um Benutzungsoberflächen-Elemente zu entschlüsseln, einschließlich deren Art, Ort und Beschreibung. Dadurch können große Sprachmodelle (LLMs) Webseiten oder Infografiken interpretieren, Fragen beantworten und sogar durch Benutzungsoberflächen navigieren. Der Schlüssel zu diesem Durchbruch ist die PaLI-Architektur, erweitert durch den innovativen pix2struct-Ansatz.

Die Trainingseinheiten des Modells wurden in zwei Schritten durchgeführt: Zuerst automatisiert und selbstlernend, dann gezielt manuell für das Sprachmodell. Die Grundlage bildete eine umfangreiche Sammlung von Screenshots von Desktops, Smartphones und Tablets. Diese umfassende Analyse ermöglichte es dem Modell, auch komplexe visuelle Informationen zu verarbeiten.

Trotz herausragender State-of-the-art-Ergebnisse in verschiedenen KI-Benchmarks räumt das Google-Research-Team ein, dass ihr Ansatz im Vergleich zu großen Modellen noch Verbesserungsbedarf hat. Weiterführende Forschung wird notwendig sein, um diese Lücke zu schließen und die Fähigkeiten der KI im Umgang mit visuellen Daten vollends zu entfalten.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>