Qwen2.5s Mathe-Künste entzaubert: Alibaba-Modell lernt offenbar nur auswendig

Sind Alibabas KI-Modelle wirklich so schlau, wie es scheint? Eine aktuelle Studie gibt einen spannenden Einblick und stellt die Frage: Handelt es sich beim mathematischen Können von Qwen2.5 nur um cleveres Auswendiglernen?

In der KI-Szene sorgte Alibabas Qwen2.5 schon für Aufsehen, als es beeindruckende Ergebnisse beim mathematischen Reasoning lieferte. Doch die neue Untersuchung bringt Ernüchterung: Die gezeigten Leistungen lassen sich offenbar vor allem auf Datenkontamination im Training zurückführen. Auf sauberen, speziell dafür erstellten Benchmarks bricht die Performance des Modells regelrecht ein.

Die Forscher prüften, wie gut Qwen2.5 unvollständige Aufgaben aus dem bekannten MATH-500-Benchmark vervollständigen kann – mit erstaunlichem Erfolg: Über die Hälfte der fehlenden Informationen konnte das Modell korrekt rekonstruieren, während Konkurrent Llama3.1-8B weit abgeschlagen zurückblieb. Doch auf dem sauberen LiveMathBench, der nach Qwens Veröffentlichung erstellt wurde, versagte es fast vollständig.

Der Grund liegt vermutlich im Vortraining: Gigantische Datenmengen aus dem Web, inklusive GitHub-Repositories mit Benchmark-Aufgaben samt Lösungen, führten dazu, dass Qwen2.5 sich viele Probleme einfach einprägte. Besonders deutlich wurde das bei Experimenten mit synthetischen, garantiert kontaminationsfreien Datensätzen: Nur korrektes Reinforcement Learning führte zu Verbesserungen, zufällige oder sogar invertierte Belohnungssignale schadeten eher.

Die Ergebnisse unterstreichen, wie schwierig es bleibt, echtes logisches Denken von reiner Wiedererkennung zu unterscheiden. Sie werfen auch ein Schlaglicht auf die Risiken kontaminierter Benchmarks in der Forschung. Selbst etablierte Tests können durch Trainingstricks oder „Benchmark-Optimierungen“, wie schon bei Metas Llama4 oder aktuellen Gemini- und Claude-Modellen beobachtet, in die Irre führen.

Ob diese Erkenntnisse auch für Alibabas Nachfolger Qwen3 gelten, ist noch offen – hier bleibt die weitere Forschung abzuwarten.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Qwen2.5s Mathe-Künste entzaubert: Alibaba-Modell lernt offenbar nur auswendig

Qwen2.5s Mathe-Künste entzaubert: Alibaba-Modell lernt offenbar nur auswendig

Das könnte Sie auch interessieren

Galaxy S26 setzt auf Multi-KI: „Hey Plex“ bringt Perplexity tief ins System

Wenn Simulation zur Realität wird: Nvidias DreamDojo beschleunigt Robotik-Training

Abonnieren Sie jetzt unseren Newsletter!