30. Januar 2025

Alibabas KI-Offensive: Qwen2.5-VL zeigt Stärke als visuelles Modell

Alibaba hat ein neues Kapitel in der KI-Entwicklung aufgeschlagen: Mit Qwen2.5-VL erweitert das chinesische Technologieunternehmen seine Qwen-Serie um ein multimodales Modell. Doch was macht Qwen2.5-VL besonders und wie schlägt es sich im Vergleich zu Konkurrenten wie GPT-4o und Claude 3.5?

Ein Multitalent für Text, Bild und Video

Die neue Version basiert auf dem Open-Source-Modell Qwen2-VL und bringt deutliche Fortschritte bei der Verarbeitung von verschiedenen Datentypen wie Text, Bild und Video. Mit Unterstützung für Inhalte bis zu einer Stunde Laufzeit überzeugt das Modell vor allem bei spezifischen Anforderungen, etwa der Analyse von Diagrammen, Icons und komplexen Layouts. Qwen2.5-VL ist in drei Versionen verfügbar, mit 3, 7 und 72 Milliarden Parametern.

Eine der beeindruckendsten Eigenschaften des Modells ist seine Fähigkeit, als visueller Agent zu agieren. Durch präzise Analysen von Bildschirmoberflächen kann es Schaltflächen identifizieren und Abläufe planen. Dies macht es potenziell zu einem idealen Kandidaten für den Einsatz in Open-Source-Operatoren.

Leistung, die beeindruckt

In Benchmarks zeigt sich Qwen2.5-VL-72B auf Augenhöhe mit Größen wie GPT-4o und Claude 3.5 Sonnet. In einigen Bereichen, insbesondere beim Dokumentenverständnis und als visueller Agent, übertrifft es diese sogar. Auch die kleineren Modelle der Serie, Qwen2.5-VL-7B und 3B, bieten beachtliche Leistungen und schlagen die Vorgängerversion sowie andere kompakte Modelle wie GPT-4o-Mini.

Die Zukunft ist omnimodal

Alibaba plant, seine Qwen-Modelle weiterzuentwickeln, um ein Omni-KI-Modell zu schaffen. Dieses soll sämtliche Eingabearten – von Text bis hin zu Spracheingabe in Audioform – abdecken und mit verbesserten Problemlösungs- und Reasoning-Fähigkeiten überzeugen. Ein wissenschaftliches Paper zur Architektur und dem Training des Modells ist in Arbeit.

Verfügbarkeit und Einschränkungen

Die Qwen2.5-VL-Modelle sind Open Source und auf Plattformen wie GitHub, Hugging Face und ModelScope verfügbar. Einschränkungen gibt es jedoch: Gesetzliche Vorgaben in China beeinflussen die Nutzungsmöglichkeiten, und bestimmte Themen sind von der Diskussion ausgeschlossen. Zudem ist die kommerzielle Nutzung der Modelle teilweise limitiert.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>