4. Juli 2026

OpenAI senkt offenbar Betriebskosten bestehender KI-Modelle deutlich

Der Betrieb großer KI-Modelle ist einer der teuersten Faktoren im KI-Geschäft. Einem Bericht zufolge hat OpenAI nun interne Optimierungen gefunden, die genau dort ansetzen: bei den Inferenzkosten, also den Kosten für die Nutzung bereits trainierter Modelle.

Laut The Information sollen OpenAI-Ingenieure die Betriebskosten bestehender KI-Modelle um mehr als 50 Prozent reduziert haben. Besonders auffällig ist eine Angabe aus dem Bericht: Für nicht eingeloggte ChatGPT-Nutzer soll OpenAI zeitweise nur noch „ein paar hundert“ Nvidia-GPUs benötigt haben. Welche konkreten Verfahren dabei eingesetzt werden, ist nicht bekannt.

Naheliegend sind jedoch mehrere in der Branche etablierte Ansätze. Dazu gehören Quantisierung, bei der die Zahlenpräzision von Modellgewichten reduziert wird, Key-Value-Caching zur Wiederverwendung früherer Berechnungen, Batching für die parallele Verarbeitung mehrerer Anfragen sowie Modellrouting, bei dem einfachere Aufgaben an weniger rechenintensive Modelle weitergeleitet werden. In Kombination können solche Verfahren erhebliche Einsparungen ermöglichen.

Ganz ohne Risiko sind aggressive Effizienzmaßnahmen allerdings nicht. Eine starke Quantisierung kann die Genauigkeit der Antworten beeinträchtigen. Fehlerhaftes Routing kann dazu führen, dass eine Anfrage fälschlich als einfach eingestuft und an ein zu kleines Modell weitergegeben wird. Auch Kontext-Komprimierung kann problematisch werden, wenn sicherheitsrelevante Signale in langen Chatverläufen verloren gehen.

Für OpenAI geht es dabei nicht nur um technische Effizienz, sondern auch um die Wirtschaftlichkeit des Geschäftsmodells. Laut The Information lag die Bruttomarge des API-Geschäfts Ende des ersten Quartals bei 39 Prozent, nach 33 Prozent im Vorjahr. Ziel soll eine Bruttomarge von 52 Prozent bis Jahresende sein. Um das zu erreichen, müsste OpenAI im restlichen Jahr durchschnittlich rund 56 Prozent erzielen. Alternativ könnten Einsparungen teilweise an Kunden weitergegeben werden, etwa über günstigere API-Preise oder höhere Kontingente für ChatGPT-Abonnenten.

Auch andere KI-Anbieter arbeiten an ähnlichen Hebeln. Anthropic spricht bei seinen Effizienzmaßnahmen von „Compute Multipliers“. CEO Dario Amodei hält Details dazu bewusst unter Verschluss, um Nachahmung zu erschweren.

Die Entwicklung passt in eine Phase, in der Rechenkapazität zum Engpass der KI-Branche geworden ist. Selbst große Tech-Konzerne stoßen an Grenzen, wie der begrenzte Gemini-Zugang für Meta durch Google zeigt. Neue Rechenzentren entstehen zwar mit Milliardeninvestitionen, ihre Inbetriebnahme dauert jedoch oft Monate oder Jahre. Software-Effizienz wird dadurch zu einem strategischen Wettbewerbsfaktor.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>