Die KI-Forschung schreitet rasant voran – jetzt bringt ein chinesisches Team mit OmniGen 2 frischen Wind in die Text-Bild-Welt.
Was steckt hinter dem ambitionierten Open-Source-Projekt aus Peking?
OmniGen 2 stammt von der Beijing Academy of Artificial Intelligence und hat einen klaren Fokus: Text-Bild-Generierung, Bildbearbeitung und kontextbezogene Visualisierung in einer quelloffenen Architektur vereinen. Im Vergleich zu GPT-4o von OpenAI steht hier die Offenheit für die Forschungsgemeinschaft im Vordergrund – bei erstaunlich guter Leistung.
Das Modell verfolgt einen neuartigen technischen Ansatz: Für Text und Bild kommen getrennte Dekodierungspfade zum Einsatz, wodurch sich das System nahtlos an bestehende multimodale Sprachmodelle ankoppeln lässt, ohne deren Textfähigkeiten zu beeinflussen. Als Grundlage dient ein Qwen2.5-VL-3B-Modell, ergänzt durch einen Diffusion Transformer mit rund vier Milliarden Parametern für die Bildsynthese. Das spezielle Token „<|img|>“ signalisiert dabei dem System, wann ein Bild generiert werden soll.
Spannend ist vor allem der Trainingsansatz: Über 140 Millionen Bilder – teils aus Open-Source-Datensätzen, teils aus eigenen Sammlungen – bilden die Grundlage. Videomaterial dient nicht nur zur Erweiterung der Datenbasis, sondern auch zur Verbesserung der Bildbearbeitung: Ähnliche Szenen wie ein Gesicht mit und ohne Lächeln werden automatisch mit passenden Textanweisungen versehen. So lernt das System, präzise Bildänderungen vorzunehmen.
Die Entwickler:innen gehen auch beim Kontextverständnis neue Wege. Mit der Omni-RoPE-Positionseinbettung gelingt es, räumliche und semantische Informationen aus Bildern gezielter zu nutzen. Ein reflektierender Mechanismus hilft zudem, die Bildqualität iterativ zu verbessern – ein Feature, das bisher selten im Open-Source-Bereich zu finden war.
Für eine objektive Bewertung entwickelten die Forschenden den OmniContext-Benchmark, bei dem OmniGen 2 mit einem Score von 7,18 alle anderen quelloffenen Modelle hinter sich lässt. Nur GPT-4o liegt mit 8,8 noch darüber – allerdings ist das Modell nicht offen zugänglich.
Natürlich gibt es auch Einschränkungen: Die Bildqualität hängt stark von der Eingabe ab, und die Verarbeitung chinesischer Prompts ist noch nicht optimal. Dennoch zeigt OmniGen 2, wie viel Potenzial in Open-Source-Alternativen steckt – und die Community darf sich freuen: Modell, Daten und Trainingspipeline sollen bald auf Hugging Face erscheinen.