Googles neues Sprachmodell überzeugt mit einem stabilen Textverständnis über große Distanzen hinweg.
Doch wie hilfreich sind riesige Kontextfenster wirklich?
Gemini 2.5 Pro setzt Maßstäbe bei Langtextverständnis
Im Fiction.Live-Benchmark, der auf realistische Anwendungen mit langen Texten setzt, belegt Gemini 2.5 Pro derzeit die Spitzenposition. Das Modell zeigt beeindruckende Fähigkeiten im Erfassen komplexer Handlungsstränge – weit über das hinaus, was etwa ein simpler „Needle in the Haystack“-Test misst.
OpenAIs aktuelles Modell o3 hält bis zu einem Kontext von 128.000 Tokens gut mit. Doch bei 192.000 Tokens bricht die Leistung spürbar ein. Gemini 2.5 Pro, getestet in der Version preview-06-05 von Juni, bleibt hingegen stabil – zumindest innerhalb der Testgrenzen. Denn obwohl Google bis zu eine Million Tokens als theoretisches Maximum angibt, bewegen sich die getesteten Bereiche deutlich darunter. Auch bei Gemini dürfte die Präzision bei größeren Kontexten abnehmen.
Während Meta bei Llama 4 Maverick sogar von zehn Millionen Tokens spricht, zeigt sich in der Praxis: Mehr ist nicht automatisch besser. Das Modell ignoriert in komplexen Aufgaben zu viele Informationen – ein klarer Hinweis darauf, dass nicht nur die Quantität zählt.
Deepmind mahnt zur Vorsicht bei Kontextgröße
Ein spannender Aspekt kommt von Google Deepmind-Forscher Nikolay Savinov. Er warnt: „Mehr Aufmerksamkeit für ein Token bedeutet weniger für andere.“ Dieses Verteilungsproblem mache sich vor allem bei überlangen Kontexten bemerkbar.
Die Lösung? Weniger ist oft mehr. Savinov rät, irrelevante Informationen möglichst gar nicht erst in den Kontext zu geben. Auch aktuelle Studien bestätigen: KI hat noch deutliche Schwächen beim Schlussfolgern aus sehr langen Inhalten.
Die Empfehlung für die Praxis lautet also: Wer große Dokumente mit Sprachmodellen analysieren will, sollte vorher gründlich ausmisten – insbesondere Einleitungen oder allgemeine Abschnitte, die für die konkrete Aufgabe keine Bedeutung haben.