Das chinesische Unternehmen Deepseek überrascht die KI-Welt mit einem neuen Modell der Janus-Familie. Kann Janus-Pro mit Dall-E 3 und anderen führenden Bildgeneratoren mithalten?
Deepseek hat erneut für Schlagzeilen gesorgt, diesmal mit der Veröffentlichung von Janus-Pro, einem multimodalen Modell, das OpenAI’s Dall-E 3 und anderen Bildgeneratoren Konkurrenz machen soll. Das Modell ist unter der MIT-Lizenz als Open-Source verfügbar und kann über Plattformen wie Hugging Face bezogen werden. Als Nachfolger des ursprünglichen Janus-Modells ist Janus-Pro nicht nur größer, sondern auch deutlich leistungsstärker.
Das Besondere an Janus-Pro ist seine Vielseitigkeit: Es kann nicht nur Bilder erzeugen, sondern diese auch verstehen – und das mit einer Präzision, die neue Maßstäbe setzt. Erste Ergebnisse, die im zugehörigen Forschungs-Paper vorgestellt wurden, zeigen fotorealistische Bilder, die mit Werken von Midjourney vergleichbar sind. Besonders bemerkenswert: Das Modell kann sogar Schriftzüge wie „Hello“ erzeugen – eine anspruchsvolle Aufgabe für KI-Bildgeneratoren.
Die Veröffentlichung von Janus-Pro kommt zu einem spannenden Zeitpunkt: Der Hype um Deepseek wächst kontinuierlich. Vorangegangene Modelle wie R1 und V3 haben bereits das Silicon Valley und die Börse aufgemischt, wobei insbesondere die kostengünstige und effiziente Trainingsmethode der Modelle für Aufsehen sorgte. Janus-Pro hebt diesen Trend auf ein neues Level, indem es in Benchmarks nicht nur Dall-E 3, sondern auch Stable Diffusion XL übertrifft.
Trotz des Erfolgs bleibt Deepseek nicht unumstritten. Kritiker werfen dem Unternehmen vor, bei der Entwicklung der Modelle auf Model-Destillation zurückgegriffen zu haben. Dabei wird das Wissen eines großen Modells, etwa ChatGPT, in ein kleineres Modell übertragen. Hinweise darauf fanden sich in Berichten, dass die Modelle gelegentlich wie ChatGPT antworteten.