Alibabas neuestes Vision-Language-Modell Qwen2-VL setzt neue Maßstäbe in der KI-gestützten Bild- und Videoanalyse.
Die KI-Forschungsabteilung von Alibaba hat kürzlich Qwen2-VL veröffentlicht, die neueste Version ihres Vision-Language-Modells. Dieses Modell zeigt beeindruckende Leistungen in verschiedenen Benchmarks für visuelles Verständnis, darunter DocVAQ, RealWorldQA und MathVista, und erreicht dabei State-of-the-Art-Ergebnisse.
Eine der herausragenden Fähigkeiten von Qwen2-VL ist die Analyse von Videos mit einer Länge von über 20 Minuten. Das Modell kann darauf basierende Fragen beantworten, Inhalte generieren und sogar Dialoge führen. Diese Funktion macht es besonders wertvoll als visuellen Agenten, der in Mobiltelefonen oder Robotern integriert werden kann. Dabei verarbeitet Qwen2-VL nicht nur Textanweisungen, sondern auch visuelle Informationen, um komplexe Schlussfolgerungen zu ziehen, automatisierte Aktionen auszuführen und Entscheidungen zu treffen.
Qwen2-VL unterstützt neben Englisch und Chinesisch auch Texte in Bildern in zahlreichen anderen Sprachen wie den meisten europäischen Sprachen, Koreanisch und Japanisch. Es gibt jedoch auch Einschränkungen: Das Modell unterstützt keine Audiodaten, hat Schwierigkeiten beim Zählen von Objekten und beim räumlichen Schlussfolgern in 3D-Umgebungen. Zudem basiert sein Wissen auf Daten, die nur bis Juni 2023 aktuell sind.
Qwen2-VL ist in drei verschiedenen Modellgrößen verfügbar: 2, 7 und 72 Milliarden Parameter. Während die Modelle mit 2 und 7 Milliarden Parametern als Open Source auf GitHub und Hugging Face bereitstehen, bietet Alibaba das Modell mit 72 Milliarden Parametern über eine API an, die über die Plattform DashScope zugänglich ist. Nutzer müssen sich dort registrieren und einen API-Schlüssel anfordern. Für die Nutzung der kleineren Modelle empfiehlt Qwen eine Installation aus dem Quellcode und stellt ein Toolkit namens „qwen-vl-utils“ zur Verfügung, das die Verarbeitung verschiedener visueller Eingabeformate erleichtert. Die Entwicklung der Qwen-Modelle durch die Cloud-Computing-Einheit von Alibaba unterstreicht die fortschrittlichen Fähigkeiten des chinesischen E-Commerce-Riesen im Bereich der KI. Mit Qwen2-VL wird ein weiterer Schritt in Richtung fortschrittlicher visueller und sprachlicher KI-Technologien gemacht, die weitreichende Anwendungen in verschiedenen Branchen ermöglichen.