Bisher galt die menschliche Einschätzung als Maß aller Dinge. Doch genau hier setzt die Kritik von Google Research an: Viele aktuelle Benchmarks vereinfachen die Realität zu stark. Wenn mehrere Tester die Qualität einer KI-Ausgabe bewerten, wird ihre Meinung meist auf eine simple Mehrheitsentscheidung reduziert. Das klingt zunächst praktikabel, blendet aber eine entscheidende Tatsache aus – Menschen sind sich oft nicht einig, und genau diese Uneinigkeit enthält wertvolle Informationen.
Ein knappes Abstimmungsergebnis wird in der Praxis wie eine eindeutige Wahrheit behandelt. Dabei geht die eigentliche Komplexität verloren. Unterschiedliche Perspektiven, Interpretationen und Unsicherheiten verschwinden hinter einem einzigen Label. Das führt dazu, dass Benchmarks oft ein verzerrtes Bild der tatsächlichen Modellleistung liefern.
Noch kritischer wird es beim Blick auf die statistische Grundlage. Google Research zeigt, dass viele aktuelle Tests nicht einmal die notwendige Signifikanz erreichen. Kleine Stichproben und zu wenige Bewertungen sorgen dafür, dass Ergebnisse teilweise eher Zufall als belastbare Erkenntnis sind. Wer KI-Modelle seriös vergleichen will, braucht deutlich mehr Datenpunkte und sauber definierte Schwellenwerte.
Die Lösung liegt in einem grundlegenden Umdenken: Statt starrer Ja-Nein-Entscheidungen sollen zukünftige Benchmarks Wahrscheinlichkeiten abbilden. Nicht mehr „richtig“ oder „falsch“, sondern „wie wahrscheinlich ist diese Bewertung?“. Damit wird die Vielfalt menschlicher Einschätzungen endlich Teil der Analyse – und nicht länger ein Störfaktor.
