Alibaba legt mit der neuen Qwen-3.5-Reihe nach und verspricht mehr Leistung bei weniger Rechenaufwand – ein spannender Schritt für alle, die KI nicht nur im Labor, sondern produktiv betreiben wollen. Was steckt konkret hinter den vier neuen Varianten?
Zur Modellfamilie gehören Qwen3.5-Flash, Qwen3.5-35B-A3B, Qwen3.5-122B-A10B und Qwen3.5-27B. Gemeinsam ist ihnen: Sie nehmen neben Text auch Bilder und Video als Eingabe und liefern Text als Ausgabe. Besonders bemerkenswert ist laut Alibaba der Effizienzsprung beim kleineren Qwen3.5-35B-A3B, das das deutlich größere Vorgängermodell Qwen3-235B-A22B übertrifft. Das ist ein klares Signal: Architekturentscheidungen, Datenqualität und Reinforcement Learning können mehr bewegen als das reine Aufblasen der Parameterzahl.
Die größeren Varianten (122B und 27B) sollen den Abstand zu Top-Modellen weiter verkleinern – vor allem dort, wo es in der Praxis wirklich weh tut: bei komplexen Agenten-Workflows, die planen, Tools nutzen, Zwischenschritte bewerten und dabei konsistent bleiben müssen. Wer solche Szenarien aufsetzen will, schaut inzwischen weniger auf „Maximalgröße“, sondern auf ein ausgewogenes Verhältnis aus Qualität, Latenz und Kosten.
Für die Nutzung senkt Alibaba die Hürden: Die Modelle sind über Hugging Face, ModelScope und via Qwen Chat verfügbar und stehen unter der Apache License 2.0 – also sehr offen, inklusive kommerzieller Nutzung, Anpassung und Weiterverbreitung. Qwen3.5-Flash ist dabei die gehostete Produktionsvariante mit sehr großer Kontextlänge (eine Million Token) und eingebauten Tools. Preislich nennt Alibaba 0,10 US-Dollar pro Million Input-Token und 0,40 US-Dollar pro Million Output-Token – interessant für Teams, die Inferenzkosten sauber kalkulieren müssen.
