14. November 2025

Baidus neuer Ansatz für visuelles Reasoning: Ein Blick auf ERNIE-4.5-VL-28B-A3B-Thinking

Baidu bringt ein Modell an den Start, das Bilder nicht nur versteht, sondern aktiv während des Denkprozesses bearbeitet – eine spannende Entwicklung, die Fragen nach den nächsten Schritten im multimodalen KI-Wettbewerb aufwirft.

Mit ERNIE-4.5-VL-28B-A3B-Thinking setzt Baidu ein klares Zeichen: Multimodale KI soll nicht nur reagieren, sondern selbstständig den besten Weg zur Problemlösung finden. Das Modell zoomt in Bilder hinein, schneidet relevante Ausschnitte zu und nutzt diese Detailanalysen direkt in seiner Argumentationskette. Besonders beeindruckend ist der gezeigte Anwendungsfall eines blauen Hinweisschilds, das das System automatisch heranzoomt, um den Text sauber zu erkennen.

Technisch verfolgt Baidu einen effizienten Ansatz: Nur drei Milliarden der insgesamt 28 Milliarden Parameter sind aktiv – dank einer Routing-Architektur, die gezielt jene Teile des Modells nutzt, die für die jeweilige Aufgabe am sinnvollsten sind. Dadurch bleibt das System leicht genug, um auf einer einzelnen 80-GB-GPU wie einer Nvidia A100 zu laufen. Gleichzeitig verspricht Baidu eine Leistungsfähigkeit, die in einigen Benchmarks sogar größere Modelle wie Google Gemini 2.5 Pro oder OpenAI GPT-5-High übertreffen soll. Unabhängige Validierungen stehen zwar noch aus, doch der Anspruch ist klar formuliert.

In Tests zeigte ERNIE-4.5-VL-28B-A3B-Thinking ein breites Spektrum an Fähigkeiten: Personen in Bildern lokalisieren, mathematische Probleme durch das Auswerten technischer Diagramme lösen, optimale Besuchszeiten aus Grafiken ableiten oder Untertitel aus Videos extrahieren und zeitlich zuordnen. Ergänzend greift das Modell bei Bedarf auf externe Tools zu, etwa auf eine Bildersuche im Internet, um unbekannte Gegenstände zu identifizieren.

Besonders interessant ist der zeitliche Kontext: Erst im April 2025 hatte OpenAI mit o3 und o4-mini Modelle vorgestellt, die Bilder nahtlos in ihre interne Argumentationskette integrieren – mitsamt Funktionen wie Zoomen, Zuschneiden oder Drehen innerhalb des Reasonings. Dass vergleichbare Fähigkeiten nun auch in einem chinesischen Open-Source-Modell verfügbar sind, zeigt, wie schnell sich das Feld weiterentwickelt und wie eng die Innovationszyklen geworden sind.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>