Alibaba hat ein neues KI-Modell vorgestellt, das Text, Bilder, Audio und Video gleichzeitig verarbeiten kann. Doch was steckt hinter Qwen3-Omni, und warum könnte es spannend für Entwickler:innen und Endnutzer:innen sein?
Mit Qwen3-Omni bringt Alibaba ein multimodales KI-System, das auf Schnelligkeit und Vielseitigkeit ausgelegt ist. Laut eigenen Angaben liefert es Bestwerte in 32 von 36 Benchmarks – darunter bei Sprachverständnis und Stimmengenerierung, wo es sogar Modelle wie GPT-4o und Gemini 2.5 Flash hinter sich lässt. Bemerkenswert ist, dass die kompakte Architektur mit 30 Milliarden Parametern eine Mixture-of-Experts-Technik nutzt, bei der jeweils nur drei Milliarden aktiv sind.
Das macht sich vor allem bei der Reaktionszeit bemerkbar: Schon nach 211 Millisekunden reagiert das Modell auf Audio-Eingaben, bei kombinierter Audio-Video-Verarbeitung liegt die Verzögerung bei 507 Millisekunden. Möglich wird das durch die Aufteilung in zwei Komponenten: Der „Thinker“ analysiert die Eingaben, während der „Talker“ sofort Sprachausgaben erzeugt.
Auch sprachlich bringt Qwen3-Omni Vielfalt: Es versteht 19 gesprochene Sprachen, kann selbst in zehn antworten und Texte in 119 Sprachen verarbeiten. Für Entwickler:innen interessant sind zudem die Optionen, das Verhalten der KI per Anweisungen anzupassen und externe Tools einzubinden.
Neben der Hauptversion hat Alibaba mit dem Qwen3-Omni-30B-A3B-Captioner auch ein Modell vorgestellt, das speziell für die Analyse und Beschreibung von Audioinhalten entwickelt wurde. Damit will der Konzern eine Lücke im Open-Source-Bereich schließen.
Strategisch zielt Alibaba klar auch auf Konsument:innen ab. In einem englischsprachigen Werbevideo zeigt der Konzern Anwendungen mit Wearables wie den Quark AI Glasses, die Menüs direkt übersetzen können. Zusammen mit der beliebten Quark-App in China wird deutlich: Alibaba will international mitspielen.