Offene Innovation trifft Bildverständnis: OmniGen 2 als neue Open-Source-Alternative zu GPT-4o

Die KI-Forschung schreitet rasant voran – jetzt bringt ein chinesisches Team mit OmniGen 2 frischen Wind in die Text-Bild-Welt.
Was steckt hinter dem ambitionierten Open-Source-Projekt aus Peking?

OmniGen 2 stammt von der Beijing Academy of Artificial Intelligence und hat einen klaren Fokus: Text-Bild-Generierung, Bildbearbeitung und kontextbezogene Visualisierung in einer quelloffenen Architektur vereinen. Im Vergleich zu GPT-4o von OpenAI steht hier die Offenheit für die Forschungsgemeinschaft im Vordergrund – bei erstaunlich guter Leistung.

Das Modell verfolgt einen neuartigen technischen Ansatz: Für Text und Bild kommen getrennte Dekodierungspfade zum Einsatz, wodurch sich das System nahtlos an bestehende multimodale Sprachmodelle ankoppeln lässt, ohne deren Textfähigkeiten zu beeinflussen. Als Grundlage dient ein Qwen2.5-VL-3B-Modell, ergänzt durch einen Diffusion Transformer mit rund vier Milliarden Parametern für die Bildsynthese. Das spezielle Token „<|img|>“ signalisiert dabei dem System, wann ein Bild generiert werden soll.

Spannend ist vor allem der Trainingsansatz: Über 140 Millionen Bilder – teils aus Open-Source-Datensätzen, teils aus eigenen Sammlungen – bilden die Grundlage. Videomaterial dient nicht nur zur Erweiterung der Datenbasis, sondern auch zur Verbesserung der Bildbearbeitung: Ähnliche Szenen wie ein Gesicht mit und ohne Lächeln werden automatisch mit passenden Textanweisungen versehen. So lernt das System, präzise Bildänderungen vorzunehmen.

Die Entwickler:innen gehen auch beim Kontextverständnis neue Wege. Mit der Omni-RoPE-Positionseinbettung gelingt es, räumliche und semantische Informationen aus Bildern gezielter zu nutzen. Ein reflektierender Mechanismus hilft zudem, die Bildqualität iterativ zu verbessern – ein Feature, das bisher selten im Open-Source-Bereich zu finden war.

Für eine objektive Bewertung entwickelten die Forschenden den OmniContext-Benchmark, bei dem OmniGen 2 mit einem Score von 7,18 alle anderen quelloffenen Modelle hinter sich lässt. Nur GPT-4o liegt mit 8,8 noch darüber – allerdings ist das Modell nicht offen zugänglich.

Natürlich gibt es auch Einschränkungen: Die Bildqualität hängt stark von der Eingabe ab, und die Verarbeitung chinesischer Prompts ist noch nicht optimal. Dennoch zeigt OmniGen 2, wie viel Potenzial in Open-Source-Alternativen steckt – und die Community darf sich freuen: Modell, Daten und Trainingspipeline sollen bald auf Hugging Face erscheinen.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Offene Innovation trifft Bildverständnis: OmniGen 2 als neue Open-Source-Alternative zu GPT-4o

Offene Innovation trifft Bildverständnis: OmniGen 2 als neue Open-Source-Alternative zu GPT-4o

Das könnte Sie auch interessieren

Proteus versteht künftig Sprache: Amazon erweitert seinen Lagerroboter für mehr Logistikaufgaben

Google öffnet KI-Suche für Publisher-Opt-out – doch die Machtfrage bleibt

Abonnieren Sie jetzt unseren Newsletter!