Nvidias nächste Generation von KI-Beschleunigern für KI und HPC, die Blackwell-Serie, wurde bereits vorgestellt. Die technischen Testmuster der Modelle B100 und B200 wurden bereits fertiggestellt und an verschiedene wichtige Partner ausgeliefert. Leider hat sich jetzt herausgestellt, dass mit den auf der Blackwell-Architektur aufbauenden Business-Produkten nicht alles in Ordnung ist: Nach Informationen von Nvidia und Microsoft sieht es so aus, als gäbe es eine Art Designfehler, der die Veröffentlichung der Beschleunigerkarten verzögern wird.
Nach Angaben von Industriequellen, die nicht namentlich genannt werden möchten, hatte das Nvidia-Team ursprünglich geplant, die neuen schnellen Karten im vierten Quartal auf den Markt zu bringen, doch nun sieht es so aus, als könnte sich die Markteinführung um drei oder mehr Monate verzögern, so dass die neuen Karten bestenfalls erst im ersten Quartal des nächsten Jahres erhältlich sein könnten. Zusätzlich zu den beiden anonymen Informanten hat ein dritter den Bericht bestätigt - der dritte wurde von Bloomberg bei Microsoft kontaktiert. Bislang gibt es noch keine offizielle Stellungnahme, so dass die aktuellen Berichte mit Vorsicht zu genießen sind.
Der Fehler steht angeblich im Zusammenhang mit dem GB200-Chip, der zwei Blackwell-GPUs enthält, und betrifft den Chip, der die Verbindung zwischen den beiden Chips herstellt. Das Problem soll nach unbestätigten Informationen von TSMC-Ingenieuren entdeckt worden sein. Es ist nicht bekannt, ob auch bei anderen Modellen Fehler gefunden wurden, und wenn ja, um welche es sich handelt. Mit der Zeit werden hoffentlich alle Details ans Licht kommen.
Die Verzögerung hat auch die Pläne von Großkunden wie Microsoft, Meta und XAI durcheinander gebracht, die insgesamt rund 300 000 B200-GPUs bestellt hatten. Im besten Fall wird Nvidia die größeren Bestellungen erst im zweiten Quartal des nächsten Jahres erfüllen können. Was auch immer der spezifische Fehler ist, da die Gerüchteküche von einem Designfehler berichtet, d. h. das Design der Chips ist betroffen, ist dies definitiv ein Fall, der gründlich untersucht und ordnungsgemäß behoben werden muss, um ein Problem wie das zu vermeiden, das Intels Core-Prozessoren der 13. und 14. Auch AMD hatte ein Sandkorn im Getriebe, das die Verschiebung der Markteinführung der RYZEN 9000-Prozessoren und den Rückruf aller ausgelieferten Produkte zur Folge hatte, so dass auch hier nicht alles in Ordnung ist.
Für Nvidia ist es sogar noch wichtiger, dass die Chips perfekt sind, da die neue Generation von KI-Beschleunigern sehr teuer ist, insbesondere die KI-Superchip-Kategorie, die bis zu 70.000 Dollar pro Stück kosten kann, und der Preis für ein komplettes Server-Rack kann bis zu 3 Millionen Dollar erreichen und je nach Nachfrage und Vereinbarungen sogar darüber hinausgehen. Der Hersteller kann es sich nicht leisten, in diesem Bereich einen großen Fehler zu machen, da dies das Vertrauen der Kunden untergraben und zu massiven Klagen führen könnte.
In der Zwischenzeit ist ein kleiner Wandel im Gange. Die größten Kunden von Nvidia arbeiten bereits an ihren eigenen, intern entwickelten KI-Beschleunigern, die nicht nur besser zu den von ihnen ausgeführten Workflows passen, sondern auch die Produkte von Nvidia in Bezug auf Kosten und Energieeffizienz übertreffen können und gleichzeitig vielseitiger als die Zielhardware sind.
Die schnelle und effiziente Behebung des aktuellen Fehlers ist daher eine sehr wichtige Aufgabe, da die Kunden auf die Blackwell-Serie zählen und die Produkte pünktlich erhalten wollen, so dass das Nvidia-Team alles tun muss, um dieses unerwartete Hindernis zu überwinden.