Nvidias leistungsstarke Blackwell-KI-Chips sollen eine neue Ära der Rechenzentren einleiten. Doch die ersten Tests zeigen überraschende technische Probleme. Können Cloud-Anbieter dennoch auf die neue Technologie setzen?
Nvidias neue Blackwell-Chips, konzipiert für große KI-Anwendungen, stoßen in den speziell für sie entwickelten 72-Chip-Server-Racks auf Überhitzungsprobleme. Trotz mehrerer Designänderungen sind auch 36-Chip-Racks betroffen, was bei Großkunden wie Microsoft und Meta für Unsicherheiten sorgt. Die komplexen, wassergekühlten Racks, die bis zu 1,5 Tonnen wiegen, wurden als optimaler Weg zur Verbindung der Chips entwickelt, stoßen jedoch bei Belastung an ihre Grenzen.
Diese Probleme könnten zu Verzögerungen beim Aufbau der GPU-Cluster führen, die für anspruchsvolle KI-Modelle benötigt werden. Einige Anbieter erwägen bereits alternative Wege, wie den Kauf zusätzlicher Hopper-Chips, die zwar kurzfristig Nvidias Umsatz stärken könnten, langfristig jedoch das Interesse an Blackwell reduzieren könnten. Nvidia selbst reagiert zurückhaltend und betont, dass technische Anpassungen bei den unterschiedlichen Rechenzentren der Kunden erwartet und normal seien.
Jensen Huang, CEO von Nvidia, unterstrich kürzlich, dass Nvidia-Kunden unter wachsendem Druck stehen: Verzögerungen bei der Lieferung der GPUs könnten ihre Marktposition und Umsätze gefährden. Erste Leistungstests der Blackwell-Chips zeigen jedoch Potenzial: Sie sollen beim Training von KI-Modellen eine doppelt so hohe Leistung wie die Vorgängergeneration bieten. Nvidia verspricht durch Software- und Netzwerk-Updates zusätzliche Fortschritte. Gleichzeitig wächst der Fokus auf Inferenzleistungen, was der zunehmenden Skalierung von KI-Modellen entgegenkommt. Im aktuellen MLPerf Inference Benchmark schnitt der H100 Chip mit Llama 2 70B bereits viermal besser ab als vorherige Modelle.