25. Mai 2026

Gemini 3.5 Flash: Mehr Tempo, mehr Leistung – und deutlich höhere KI-Kosten

Mit Gemini 3.5 Flash bringt Google Deepmind die nächste Version seiner schnellen Flash-Modellreihe auf den Markt. Diese Modelle standen bislang vor allem für ein attraktives Verhältnis aus Geschwindigkeit, Leistungsfähigkeit und niedrigeren Kosten im Vergleich zu den Pro-Modellen.

Genau dieses Verhältnis verschiebt sich nun spürbar. Laut einer Analyse von Artificial Analysis ist Gemini 3.5 Flash im Benchmark-Betrieb 5,5-mal teurer als Gemini 3 Flash. Noch auffälliger: Trotz niedrigerem Tokenpreis pro Einheit lagen die Gesamtkosten sogar rund 75 Prozent über denen von Gemini 3.1 Pro.

Der Grund liegt nicht nur in den höheren Preisen pro Million Tokens. Google verlangt für Gemini 3.5 Flash nun 1,50 US-Dollar pro Million Input-Tokens und 9,00 US-Dollar pro Million Output-Tokens. Beim Vorgänger waren es 0,50 beziehungsweise 3,00 US-Dollar. Entscheidend ist aber zusätzlich der tatsächliche Verbrauch: Gerade bei agentischen Aufgaben nutzt das Modell deutlich mehr Tokens.

Für Entwickler und Unternehmen wird damit klarer denn je: Der reine Tokenpreis reicht als Vergleichsgröße nicht mehr aus. Viel wichtiger wird die Frage, wie effizient ein Modell eine Aufgabe tatsächlich löst. Ein Modell kann auf dem Papier günstiger sein, in der Praxis aber durch mehr Zwischenschritte und höheren Input-Verbrauch teurer werden.

Leistungsmäßig macht Gemini 3.5 Flash trotzdem einen deutlichen Sprung. Im Artificial Analysis Intelligence Index erreicht das Modell 55 Punkte und liegt damit neun Punkte über Gemini 3 Flash. Auch gegenüber Modellen wie Grok 4.3 high und Claude Sonnet 4.6 max positioniert es sich stark.

Trotzdem bleibt ein kritischer Punkt: die Halluzinationsrate. Im AA-Omniscience-Benchmark sinkt sie zwar deutlich auf 61 Prozent, liegt damit aber immer noch weit über den besten getesteten Modellen. Für produktive Unternehmensanwendungen bedeutet das: bessere Leistung ersetzt keine saubere Qualitätskontrolle.

Besonders stark verbessert sich Gemini 3.5 Flash bei agentischen Aufgaben. Im GDPval-AA-Benchmark erreicht das Modell einen Elo-Wert von 1656 und kommt damit nahe an GPT-5.4 xhigh heran. Diese Stärke hat jedoch ihren Preis: Durchschnittlich 49 Turns pro Aufgabe sind mehr als bei jedem anderen getesteten Modell. Genau diese vielen Interaktionsschritte treiben den Input-Token-Verbrauch nach oben.

Beim Coding zeigt sich dagegen eine Schwäche. Im Artificial Analysis Coding Index erreicht Gemini 3.5 Flash nur 45 Punkte und bleibt damit deutlich hinter Gemini 3.1 Pro Preview, GPT-5.5 xhigh, GPT-5.4 xhigh sowie Claude-Modellen zurück. Für reine Codegenerierung scheint das Modell also nicht die erste Wahl zu sein.

Dafür punktet Gemini 3.5 Flash bei Geschwindigkeit und Multimodalität. Mit mehr als 280 Output-Tokens pro Sekunde ist es laut Analyse rund 70 Prozent schneller als Gemini 3 Flash. Außerdem unterstützt es neben Text und Bild auch Audio- und Videoeingaben. Im multimodalen MMMU-Pro-Benchmark erreicht es 84 Prozent und damit den bisher höchsten gemessenen Wert.

Für Unternehmen wird die Entwicklung damit anspruchsvoller. KI-Modelle werden leistungsfähiger, aber auch komplexer in der Kostenbewertung. Bei einfachen Aufgaben wie Übersetzungen oder Codevorschlägen lässt sich der Nutzen noch vergleichsweise direkt messen. Bei Wissensarbeit, Recherche, Entscheidungsvorlagen oder Strategiepapieren wird es schwieriger.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>