Moderne KI-Modelle gelten als mächtig, doch ein neuer Benchmark zeigt, wie groß die Lücke zwischen Leistungsversprechen und tatsächlicher Wissenszuverlässigkeit bleibt. Wie zuverlässig sind Modelle wirklich, wenn es um faktenbasierte Antworten geht?
Die Untersuchung von Artificial Analysis liefert einen ungewöhnlich klaren Blick auf die Stärken und Schwächen aktueller KI-Systeme. Der Omniscience Index deckt präzise auf, wie gut Modelle korrektes Wissen abrufen – und wie oft sie stattdessen falsche Antworten liefern. Besonders spannend: Nur vier von 40 Modellen erzielen überhaupt einen positiven Score. Gemini 3 Pro liegt deutlich an der Spitze und zeigt beeindruckende Accuracy-Werte, kämpft aber mit extrem hoher Halluzinationsrate. Claude 4.1 Opus überzeugt mit besserer Zurückhaltung und erreicht damit trotz geringerer Accuracy vorher den besten Gesamtscore.
Auffällig ist, dass Größe zwar mit höherer Genauigkeit korreliert, aber kaum Einfluss auf Halluzinationen hat. Das erklärt, warum kleinere Modelle wie Nemotron Nano 9B V2 oder Llama Nemotron Super 49B v1.5 besser abschneiden als teurere Konkurrenzprodukte. Ebenso überraschend ist das gute Abschneiden eines älteren Llama-3.1-405B-Modells – ein Hinweis darauf, dass reine Modellgröße und allgemeine Benchmark-Scores wenig über tatsächliche Wissenszuverlässigkeit aussagen.
Hinzu kommt ein weiterer zentraler Befund: Die Ergebnisse variieren stark zwischen den Fachdomänen. Während Claude 4.1 Opus in Recht und Geisteswissenschaften glänzt, dominiert GPT-5.1.1 im Business-Umfeld und Grok 4 in Gesundheit und Naturwissenschaften. Wer für spezialisierte Anwendungen das passende Modell sucht, sollte deshalb unbedingt domänenspezifische Evaluationen berücksichtigen – eine pauschale Bewertung führt schnell in die Irre.
Der Bericht zeigt deutlich, wie entscheidend es ist, Modelle nicht nur auf generische Leistung, sondern auf echtes, faktenbasiertes Verhalten zu prüfen. Halluzinationen bleiben eines der größten Hindernisse für den produktiven Einsatz von KI in sicherheitskritischen Szenarien, und neue Bewertungsmetriken wie der Omniscience Index rücken dieses Problem stärker in den Fokus.
