4. Juni 2025

Deepseeks R1-Update zeigt: Open-Weight-Modelle sind zurück im Spitzenfeld

Deepseek hat seinem R1-Modell ein beeindruckendes Update verpasst. Können offene Modelle wieder mit den Branchengrößen mithalten?

Leistungsstarkes KI-Upgrade mit Feinschliff
Das chinesische KI-Labor Deepseek hat mit Deepseek-R1-0528 eine überarbeitete Version seines R1-Modells vorgestellt – ohne die Architektur zu verändern. Stattdessen optimierte das Team Algorithmen und nutzte zusätzliche Rechenpower. Das Ergebnis: spürbare Leistungssprünge, besonders bei Aufgaben, die tiefes logisches Denken erfordern.

Ein Highlight ist die AIME-2025-Mathematikbewertung: Die Genauigkeit stieg von 70 auf 87,5 Prozent, während sich die durchschnittliche Tokenanzahl pro Frage fast verdoppelte. Das spricht für deutlich intensivere Verarbeitungsprozesse innerhalb des Modells – und das ohne strukturelle Änderungen.

Beeindruckende Ergebnisse in Benchmarks
In Deepseeks eigenen Benchmarks überzeugt das Update auf breiter Front. Mathematische Tests wie AIME 2024 und HMMT 2025 zeigen klare Verbesserungen, ebenso wie Programmierbenchmarks wie LiveCodeBench oder SWE Verified. Besonders auffällig: Der Codeforces-Rating kletterte von 1530 auf 1930 – ein beachtlicher Sprung.

Auch bei allgemeinen Wissens- und Logikaufgaben liefert das Modell verlässlich bessere Resultate. Zwar musste SimpleQA leichte Einbußen hinnehmen, doch insgesamt steigt die Leistungsfähigkeit messbar. Alle Tests erfolgten unter standardisierten Bedingungen mit bis zu 64.000 Token Kontextlänge.

Bestätigung von unabhängiger Stelle
Artificial Analysis, eine unabhängige Bewertungsplattform, bewertet das Modell mit 68 Punkten im Intelligence Index – ein deutlicher Sprung von vorher 60. Damit erreicht Deepseek ein Niveau vergleichbar mit OpenAI o3 und Googles Gemini 2.5 Pro. Besonders im Bereich Code liegt das Modell knapp unter o4-mini (high).

Die Experten führen den Leistungsschub vor allem auf ein erweitertes Post-Training mit Reinforcement Learning zurück. Der Tokenverbrauch bei der Auswertung stieg dabei um rund 40 Prozent. Das Ergebnis: tiefere, längere und differenziertere Antworten – ein deutliches Qualitätsmerkmal.

Kompaktmodell mit großem Potenzial
Neben dem Hauptmodell stellt Deepseek auch ein kompaktes Derivat vor: Deepseek-R1-0528-Qwen3-8B. Dieses Modell basiert auf Alibabas Qwen3 8B, wurde mit Chain-of-Thought-Techniken nachtrainiert und liefert auf AIME 2024 stolze 86 Prozent Genauigkeit – ein Niveau, das sonst nur deutlich größere Modelle wie Qwen3-235B-thinking erreichen.

Der Clou: Das Kompaktmodell ist effizient genug für den Einsatz auf einer Nvidia H100. Deepseek sieht darin einen Beleg für die Relevanz von kleinen, reasoning-orientierten KI-Systemen im akademischen und industriellen Kontext.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>