Sind Alibabas KI-Modelle wirklich so schlau, wie es scheint? Eine aktuelle Studie gibt einen spannenden Einblick und stellt die Frage: Handelt es sich beim mathematischen Können von Qwen2.5 nur um cleveres Auswendiglernen?
In der KI-Szene sorgte Alibabas Qwen2.5 schon für Aufsehen, als es beeindruckende Ergebnisse beim mathematischen Reasoning lieferte. Doch die neue Untersuchung bringt Ernüchterung: Die gezeigten Leistungen lassen sich offenbar vor allem auf Datenkontamination im Training zurückführen. Auf sauberen, speziell dafür erstellten Benchmarks bricht die Performance des Modells regelrecht ein.
Die Forscher prüften, wie gut Qwen2.5 unvollständige Aufgaben aus dem bekannten MATH-500-Benchmark vervollständigen kann – mit erstaunlichem Erfolg: Über die Hälfte der fehlenden Informationen konnte das Modell korrekt rekonstruieren, während Konkurrent Llama3.1-8B weit abgeschlagen zurückblieb. Doch auf dem sauberen LiveMathBench, der nach Qwens Veröffentlichung erstellt wurde, versagte es fast vollständig.
Der Grund liegt vermutlich im Vortraining: Gigantische Datenmengen aus dem Web, inklusive GitHub-Repositories mit Benchmark-Aufgaben samt Lösungen, führten dazu, dass Qwen2.5 sich viele Probleme einfach einprägte. Besonders deutlich wurde das bei Experimenten mit synthetischen, garantiert kontaminationsfreien Datensätzen: Nur korrektes Reinforcement Learning führte zu Verbesserungen, zufällige oder sogar invertierte Belohnungssignale schadeten eher.
Die Ergebnisse unterstreichen, wie schwierig es bleibt, echtes logisches Denken von reiner Wiedererkennung zu unterscheiden. Sie werfen auch ein Schlaglicht auf die Risiken kontaminierter Benchmarks in der Forschung. Selbst etablierte Tests können durch Trainingstricks oder „Benchmark-Optimierungen“, wie schon bei Metas Llama4 oder aktuellen Gemini- und Claude-Modellen beobachtet, in die Irre führen.
Ob diese Erkenntnisse auch für Alibabas Nachfolger Qwen3 gelten, ist noch offen – hier bleibt die weitere Forschung abzuwarten.
