13. Februar 2026

Wenn Bilder endlich richtig schreiben: Qwen-Image-2.0 setzt neue Akzente bei Text im Bild

Ein neues Bildmodell aus China sorgt für Aufmerksamkeit. Wird präzises Text-Rendering zum entscheidenden Wettbewerbsfaktor im KI-Bildmarkt?

Alibaba bringt mit Qwen-Image-2.0 ein kompaktes, aber leistungsstarkes Bildmodell an den Start, das gleich zwei zentrale Disziplinen in einem System vereint: Text-zu-Bild-Generierung und Bildbearbeitung. Mit 7 Milliarden Parametern und nativer 2K-Auflösung (2048 × 2048) ist das Modell deutlich schlanker als sein Vorgänger – und dennoch leistungsfähiger. Während zuvor zwei getrennte Modelle mit insgesamt 20 Milliarden Parametern notwendig waren, bündelt Qwen-Image-2.0 beide Fähigkeiten in einer einheitlichen Architektur.

In internen Blindtests auf einer eigenen Arena-Plattform soll das Modell sowohl bei Text-zu-Bild- als auch bei Bild-zu-Bild-Aufgaben überzeugende Ergebnisse liefern. In Ranglisten positioniert es sich knapp hinter GPT-Image-1.5 und Nano Banana Pro von OpenAI und Google. Besonders bemerkenswert: Bei Bildbearbeitungsaufgaben erreicht es Platz zwei – zwischen Nano Banana Pro und Seedream 4.5 von Bytedance.

Die eigentliche Stärke liegt jedoch in einem Bereich, der bislang als Schwachstelle vieler Bildmodelle galt: Text im Bild. Qwen-Image-2.0 rendert Schrift mit hoher Präzision, komplexer Struktur, realistischer Ausrichtung und ästhetischem Anspruch. Prompts mit bis zu 1000 Token ermöglichen die direkte Generierung von Infografiken, Präsentationsfolien, Postern oder sogar mehrseitigen Comics. In Demonstrationen werden komplette PowerPoint-Folien mit korrekt gesetzten Texten, Zeitachsen und eingebetteten Bildkompositionen erzeugt – ohne die sonst typischen Buchstabendreher oder Verzerrungen.

Besonders eindrucksvoll sind die Kalligraphie-Beispiele. Das Modell beherrscht unterschiedliche chinesische Schriftstile, darunter die historische „Schlankes-Gold-Schrift“ aus der Song-Dynastie. Selbst lange klassische Texte wie das „Vorwort zum Orchideen-Pavillon“ werden nahezu vollständig und korrekt wiedergegeben. Für Märkte mit komplexen Schriftsystemen ist das ein strategisch wichtiger Schritt.

Auch bei der Bildbearbeitung zeigt sich der Vorteil des vereinten Ansatzes. Fortschritte in der Generierung wirken sich direkt auf Editieraufgaben aus. Das Modell kann etwa Gedichte auf Fotos platzieren, aus einem Einzelporträt ein Neun-Raster mit unterschiedlichen Posen erstellen oder Personen aus verschiedenen Bildern zu einem stimmigen Gruppenfoto zusammenführen. Selbst die Kombination von Cartoon-Elementen mit realen Stadtlandschaften gelingt nahtlos. In einer Waldszene differenziert das System über 23 Grüntöne mit unterschiedlichen Texturen – von wachsartigen Blättern bis zu samtigem Moos.

Aktuell ist Qwen-Image-2.0 nur über eine API auf Alibaba Cloud im Rahmen einer Einladungs-Beta sowie als Demo auf Qwen Chat verfügbar. Offene Modellgewichte wurden noch nicht veröffentlicht. Dennoch rechnet die Community – insbesondere im LocalLLaMA-Umfeld – mit einer späteren Freigabe, da bereits die erste Version nach kurzer Zeit unter Apache-2.0-Lizenz veröffentlicht wurde. Ein technisches Paper zur Architektur steht bislang ebenfalls noch aus.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>