Mit DeepSeek-Coder-V2 stellt DeepSeek-AI ein Sprachmodell vor, das die Grenzen der Programmcode-Generierung neu definiert.
DeepSeek-AI hat das Open-Source-Sprachmodell DeepSeek-Coder-V2 veröffentlicht, das in der Lage sein soll, mit führenden Modellen wie GPT-4, Claude oder Gemini zu konkurrieren. Aufbauend auf dem Vorgängermodell DeepSeek-V2, wurde DeepSeek-Coder-V2 mit beeindruckenden 6 Billionen Token aus einem hochwertigen Multi-Source-Korpus trainiert. Das neue Modell unterstützt nun 338 Programmiersprachen im Vergleich zu den bisherigen 86 und kann statt 16.000 Token nun 128.000 Token an Kontext verarbeiten.
Der Trainingsdatensatz von DeepSeek-Coder-V2 besteht zu 60 Prozent aus Quellcode, zu 10 Prozent aus mathematischen Daten und zu 30 Prozent aus natürlicher Sprache. Der Code-Anteil umfasst 1,17 Billionen Token, gewonnen aus GitHub und CommonCrawl, während der mathematische Teil 221 Milliarden Token aus CommonCrawl beinhaltet.
DeepSeek-Coder-V2 verwendet eine Mixture-of-Experts-Architektur und wird in zwei Varianten angeboten: ein 16-Milliarden-Parameter-Modell mit 2,4 Milliarden aktiven Parametern und ein 236-Milliarden-Modell mit 21 Milliarden aktiven Parametern. Beide Modelle wurden mit insgesamt 10,2 Billionen Token trainiert.
Laut DeepSeek-AI kann DeepSeek-Coder-V2 in Benchmarks wie HumanEval oder MBPP mit den besten kommerziellen Modellen mithalten und hat im Durchschnitt 75,3 Prozent erreicht. Zwar liegt es damit etwas hinter GPT-40 mit 76,4 Prozent, aber vor GPT-4 und Claude 3 Opus. In mathematischen Benchmarks wie GSM8K, MATH oder AIME 2024 steht das Modell den führenden kommerziellen Modellen in nichts nach. In sprachlichen Aufgaben zeigt es ähnlich gute Ergebnisse wie sein Vorgänger DeepSeek-V2. Das Modell ist auf der Open-Source-Plattform Hugging Face unter einer Open-Source-Lizenz zum Download verfügbar und kann sowohl für Forschungszwecke als auch kommerziell uneingeschränkt genutzt werden. Zusätzlich wird es über eine API bereitgestellt. Trotz beeindruckender Ergebnisse sieht DeepSeek-AI noch Verbesserungsbedarf bei der Fähigkeit des Modells, Instruktionen zu befolgen, was für den Umgang mit komplexen Programmierszenarien in der realen Welt wichtig ist. An diesen Aspekten will das Unternehmen in Zukunft weiterarbeiten.