27. Januar 2026

Microsofts Maia 200: Wenn der Cloud-Riese seine KI-Chips ernst macht

Microsoft Azure legt beim hauseigenen KI-Beschleuniger nach: Mit Maia 200 bringt der Konzern die zweite Generation seines Cloud-only-Chips an den Start – klar ausgerichtet auf das Inferencing großer Modelle. Verspricht Microsoft damit wirklich einen neuen Preis-Leistungs-Standard?

Maia 200 ist technisch ambitioniert: 10 PFlops bei FP4, dazu 216 GB HBM3E und eine schnelle Kopplung zwischen Knoten mit bis zu 1,4 TByte/s. Entscheidend ist dabei weniger der reine Peak-Wert, sondern die Frage, wie gut diese Leistung in der Praxis bei großen Inferenz-Workloads ankommt – also genau dort, wo Unternehmen aktuell die meisten KI-Kosten sehen: bei produktiven Anwendungen, die nonstop Antworten liefern müssen.

Interessant ist auch Microsofts Positionierung: Maia 200 soll Google Cloud TPU v7 und AWS Trainium 3 übertreffen. Gleichzeitig bleibt offen, wie sauber dieser Vergleich wirklich ist – insbesondere weil Trainium stärker Richtung Training zielt, während Maia 200 explizit fürs Inferencing optimiert ist. Solche Vergleiche klingen im Marketing stark, sind aber nur dann belastbar, wenn Workloads, Präzision, Batch-Größen und das komplette System (inklusive Speicher und Netzwerk) transparent einbezogen werden. Genau da bleibt im Moment ein Fragezeichen: Unklar ist, ob die genannte Leistungsaufnahme unter 900 Watt nur den Chip betrifft oder ob HBM3E und die 28×400-Gbit/s-Ethernet-Ports mitgerechnet sind.

Microsoft nennt den Preis noch nicht, verspricht aber rund 30 Prozent mehr Performance pro Dollar. Wenn das stimmt, könnte Maia 200 für viele Unternehmen attraktiv werden – insbesondere für Szenarien wie RAG, Agenten-Workflows oder hochfrequente Inferenz in Kundenprozessen, wo jede Millisekunde und jeder Dollar zählen.

Skalierung ist ebenfalls ein klarer Punkt: Bis zu 6144 Maia-200-Beschleuniger lassen sich zusammenschalten. Microsoft betont, dass das eigene Superintelligence Team Maia 200 bereits nutzt – unter anderem für synthetische Datengenerierung und Reinforcement Learning. Das ist relevant, weil es zeigt: Der Chip ist nicht nur ein Datenblatt, sondern soll in realen internen Pipelines funktionieren.

Und wie bei AWS und Google zeigt sich: Komplett allein macht das kein Hyperscaler. Branchenkenner nennen Marvell als Entwicklungspartner bei Maia, während Google für TPU typischerweise Broadcom zugeschrieben wird und im AWS-Umfeld ebenfalls externe Partner eine Rolle spielen. Das passt zum Muster: Hyperscaler wollen Kontrolle über Kosten, Verfügbarkeit und Roadmaps – und setzen dafür auf eigene Silizium-Plattformen, auch wenn die Entwicklung arbeitsteilig läuft.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>