8. November 2024

Infinity-MM: Open-Source-Bildsprachmodell mit neuen Maßstäben aus China

Ein chinesisches Forscherteam bringt ein leistungsstarkes Bildsprachmodell auf den Markt. Welche Innovationen stecken in Infinity-MM und Aquila-VL-2B?

Das Forscherteam aus China hat kürzlich Infinity-MM entwickelt, einen der größten öffentlich zugänglichen Datensätze zur Förderung multimodaler KI. Dieser Datensatz bildet die Grundlage für das Modell Aquila-VL-2B, das auf mehreren Benchmarks herausragende Ergebnisse erzielt. Mit einer Mischung aus fortschrittlichen Algorithmen und offenen KI-Modellen sollen der Zugang zu Bildsprachmodellen und deren Einsatzmöglichkeiten verbessert werden.

Umfangreicher Datensatz und mehrstufiges Training

Infinity-MM setzt auf vier verschiedene Datenkategorien: 10 Millionen Bildbeschreibungen, 24,4 Millionen allgemeine visuelle Anweisungen, 6 Millionen hochwertige Anweisungen sowie 3 Millionen durch KI erzeugte Daten von Modellen wie GPT-4. Bei der Datenerstellung nutzte das Forscherteam das RAM++-Modell, um Bildinformationen zu analysieren, Fragen zu generieren und passende Antworten zu entwickeln. Ein sechs Kategorien umfassendes Klassifizierungssystem stellte sicher, dass die Daten sowohl hochwertig als auch vielfältig sind.

Das Bildsprachmodell Aquila-VL-2B basiert auf der OneVision-Architektur und integriert das Sprachmodell Qwen-2.5 sowie SigLIP für die Bildverarbeitung. Um maximale Leistung zu erzielen, wurde es in vier Phasen trainiert: von grundlegenden Bild-Text-Zuordnungen über allgemeine visuelle Aufgaben bis hin zur schrittweisen Integration der synthetisch generierten Daten. Diese Trainingsmethode führte zu einer konstanten Leistungssteigerung in Tests.

Erfolgreiche Benchmark-Tests und zunehmender Open-Source-Erfolg

Mit nur zwei Milliarden Parametern stellt Aquila-VL-2B bestehende Modelle in den Schatten. Es erreichte Spitzenwerte in Benchmarks wie MMStar (54,9 %), MathVista für mathematische Aufgaben (59 %) und Bildverständnis-Benchmarks wie HallusionBench (43 %) und MMBench (75,2 %). Die Verwendung synthetischer Trainingsdaten führte zu einer Leistungsverbesserung von 2,4 Prozentpunkten und zeigte den Wert von synthetisch angereicherten Datensätzen.

Diese Errungenschaften spiegeln den Aufwärtstrend bei Open-Source-Bildsprachmodellen wider. Obwohl Modelle wie GPT-4o aktuell oft noch leistungsstärker sind, nähern sich Open-Source-Alternativen an. Auch andere Unternehmen wie Meta setzen auf synthetische Daten, um ihre Modelle wie Llama zu verbessern. Derzeitige Modelle stehen jedoch noch vor Herausforderungen in der Bildverarbeitung, etwa bei der Filterung spezifischer visueller Informationen und der Auflösungskapazität der Encoder.

Synthetische Daten und Open-Source als Zukunft für Bildsprachmodelle?

Infinity-MM und Aquila-VL-2B zeigen eindrucksvoll, welches Potenzial Open-Source-Modelle mit synthetischen Daten bieten. Die offene Bereitstellung des Modells und des Datensatzes könnte die Forschungsgemeinschaft nachhaltig stärken und beschleunigen. Zugleich unterstreicht die Forschung die derzeitigen Grenzen von Vision Language Models, die als Entwicklungsfelder für kommende Innovationen dienen können.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>