Spezialisten von TSMC haben in den letzten Monaten auf ein ernsthaftes Problem mit den auf der Blackwell-Architektur basierenden Beschleunigern für den KI- und HPC-Markt von Nvidia hingewiesen, und erst Ende Oktober konnte die Produktion der GPUs dieser Beschleuniger aufgenommen werden. Dies führte zu einigen Verzögerungen bei den ursprünglichen Plänen, über die weder das Nvidia-Team noch die Kunden glücklich waren. Nach dem jüngsten Bericht von The Information enden die Schwierigkeiten damit nicht, denn Branchengerüchten zufolge gibt es ein Problem mit dem Design der aktuellen Server-Racks, die den Anforderungen der KI- und HPC-Beschleuniger der Blackwell-Serie nicht gerecht werden, was zu Überhitzung und im Extremfall zu Hardware-Schäden führt.
Das Problem trat vor allem bei den NVL72-Racks mit hoher Dichte und 72 Einheiten auf, bei denen es zu Überhitzungen kam, die natürlich die GPU-Leistung beeinträchtigten und längerfristig auch zu Hardwareausfällen führen können, so dass eine entschärfende Lösung erforderlich ist. Diese Lösung besteht darin, die Racks neu zu konzipieren und an die Anforderungen von Blackwell-basierten Produkten anzupassen, was Berichten zufolge schon seit einiger Zeit läuft, da das Unternehmen zwar mehrere Änderungen vorgenommen hat, aber immer noch keine beruhigende Lösung für das Problem gefunden hat. Diese Server können je nach Auslastung bis zu 120 kWh verbrauchen und erzeugen außerdem große Mengen an Wärme, die nur schwer effizient abgeführt werden kann. Die Partner sind derzeit besorgt, dass die Schwierigkeiten ihre früheren Pläne zum Scheitern bringen könnten, was verständlich ist.
Berichten zufolge hat das Nvidia-Team die Zulieferer angewiesen, verschiedene Änderungen an den Racks vorzunehmen, um eine Überhitzung zu verhindern. Der Hersteller ist natürlich in das Design und die Tests involviert, aber der Prozess dauert offenbar länger als erwartet, was sich auch darauf auswirken könnte, wann die Kunden ihre Bestellungen erhalten. Laut einem Nvidia-Sprecher gibt es eine Zusammenarbeit zwischen Nvidia und den Cloud-Diensten, und die Feinabstimmung des Designs der Racks wird als Teil des normalen Entwicklungsprozesses betrachtet - es passiert also offenbar nichts Ungewöhnliches. Die Zusammenarbeit ist auch notwendig, um sicherzustellen, dass die Endprodukte die Erwartungen in Bezug auf Leistung und Zuverlässigkeit erfüllen. Das Unternehmen arbeitet weiter an den technischen Herausforderungen, aber die genaue Art dieser Herausforderungen wurde von der Sprecherin nicht genannt.
Der frühere Fehler, der das Design von Blackwell-basierten GPUs für den Servermarkt betraf, führte ebenfalls zu einigen Verzögerungen. Bei Produkten, die die CoWoS-L-Kapselungstechnologie von TSMC verwenden, die aus zwei Chipsätzen besteht, werden lokale Siliziumverbindungsbrücken (LSI Bridges) verwendet, um die beiden Einheiten auf einem RDL-Interposer mit den Chipsätzen zu verbinden. Die Formel für das erste Design war fehlerhaft, da es ein Problem mit den thermischen Ausdehnungskoeffizienten des Designs gab, dem anscheinend nicht genügend Aufmerksamkeit geschenkt wurde, was dazu führte, dass sich die Platine unter Last schließlich verformte, was zu Systemausfällen und zur Funktionsunfähigkeit der GPU führte. Dieser Fehler wurde von Nvidia eingeräumt und durch die Änderung einiger Masken behoben, aber es wurden keine offiziellen Angaben darüber gemacht, was genau die Ursache für die Änderung war, die obige Information ist nur Hörensagen, das möglicherweise auf einer Menge Grundlage beruht.
Auf jeden Fall sind die neuen Schwierigkeiten ein Grund zur Sorge für die großen Partner, und die Teams von Google, Meta und Microsoft sind gespannt, wann der neue Fehler behoben ist und die bestellten Produkte geliefert werden. Diese Beschleuniger werden dringend benötigt, da die Partner ihre Zeitpläne nur dann einhalten können, wenn die Hardware rechtzeitig zur Verfügung steht. Es sieht nun so aus, als ob die Auslieferung der Blackwell-basierten Beschleuniger für den KI- und HPC-Markt irgendwann gegen Ende Januar beginnen könnte.