Alibaba hat ein neues Kapitel in der KI-Entwicklung aufgeschlagen: Mit Qwen2.5-VL erweitert das chinesische Technologieunternehmen seine Qwen-Serie um ein multimodales Modell. Doch was macht Qwen2.5-VL besonders und wie schlägt es sich im Vergleich zu Konkurrenten wie GPT-4o und Claude 3.5?
Ein Multitalent für Text, Bild und Video
Die neue Version basiert auf dem Open-Source-Modell Qwen2-VL und bringt deutliche Fortschritte bei der Verarbeitung von verschiedenen Datentypen wie Text, Bild und Video. Mit Unterstützung für Inhalte bis zu einer Stunde Laufzeit überzeugt das Modell vor allem bei spezifischen Anforderungen, etwa der Analyse von Diagrammen, Icons und komplexen Layouts. Qwen2.5-VL ist in drei Versionen verfügbar, mit 3, 7 und 72 Milliarden Parametern.
Eine der beeindruckendsten Eigenschaften des Modells ist seine Fähigkeit, als visueller Agent zu agieren. Durch präzise Analysen von Bildschirmoberflächen kann es Schaltflächen identifizieren und Abläufe planen. Dies macht es potenziell zu einem idealen Kandidaten für den Einsatz in Open-Source-Operatoren.
Leistung, die beeindruckt
In Benchmarks zeigt sich Qwen2.5-VL-72B auf Augenhöhe mit Größen wie GPT-4o und Claude 3.5 Sonnet. In einigen Bereichen, insbesondere beim Dokumentenverständnis und als visueller Agent, übertrifft es diese sogar. Auch die kleineren Modelle der Serie, Qwen2.5-VL-7B und 3B, bieten beachtliche Leistungen und schlagen die Vorgängerversion sowie andere kompakte Modelle wie GPT-4o-Mini.
Die Zukunft ist omnimodal
Alibaba plant, seine Qwen-Modelle weiterzuentwickeln, um ein Omni-KI-Modell zu schaffen. Dieses soll sämtliche Eingabearten – von Text bis hin zu Spracheingabe in Audioform – abdecken und mit verbesserten Problemlösungs- und Reasoning-Fähigkeiten überzeugen. Ein wissenschaftliches Paper zur Architektur und dem Training des Modells ist in Arbeit.
Verfügbarkeit und Einschränkungen
Die Qwen2.5-VL-Modelle sind Open Source und auf Plattformen wie GitHub, Hugging Face und ModelScope verfügbar. Einschränkungen gibt es jedoch: Gesetzliche Vorgaben in China beeinflussen die Nutzungsmöglichkeiten, und bestimmte Themen sind von der Diskussion ausgeschlossen. Zudem ist die kommerzielle Nutzung der Modelle teilweise limitiert.