Nvidias Angebote für den KI- und HPC-Markt wurden mit der Ankündigung der neuesten Entwicklungen, die nun auf der Blackwell-Architektur basieren, formell aktualisiert. Die B100-, B200- und GB200-Lösungen wurden bereits in unseren früheren News ausführlich beschrieben, obwohl Nvidia-Offizielle die genaue Architektur jedes Modells noch nicht enthüllt haben, so dass weder die Anzahl der SM-Arrays noch die Größe der Caches bekannt sind. Da die neuen Versionen noch in diesem Jahr auf den Markt kommen sollen, werden die noch nicht bekannten Details sicherlich später bekannt gegeben.
Die B100- und B200-GPUs sowie der GB200-Superchip sollen nach den Plänen von Nvidia in nicht allzu ferner Zukunft in einer Reihe neuer Konfigurationen erhältlich sein. Sie werden auch von neuen Switches begleitet werden, da erhöhte Leistungs- und Bandbreitenanforderungen berücksichtigt werden müssen, um sicherzustellen, dass Multiknoten-Systeme gut skalierbar sind und effizient arbeiten.
Die HGX B100-Lösung ist die erste in dieser Reihe, mit nicht weniger als acht B100-GPUs an Bord und einem Prozessor, der auf der x86-64-Architektur basiert. Dieses System basiert im Wesentlichen auf dem HGX H100, so dass die CPUs und GPUs problemlos im bestehenden System untergebracht werden können, was die Einführung der neuen Technologie erheblich beschleunigen wird. Infolgedessen kann der GPU-TDP-Rahmen jetzt bis zu 700 W betragen, genau wie wir es von der H100 gewohnt sind, so dass eine einzelne GPU jetzt eine FP4-Rechenleistung von 14 PFLOP/s erreichen kann.
Ein HGX B200-System ist ebenfalls in der Entwicklung, das eine ähnliche Architektur wie der HGX B100 aufweist, aber die Möglichkeit bietet, den TDP-Rahmen jedes Grafikprozessors auf bis zu 1000 W zu konfigurieren. In diesem System werden wahrscheinlich zwei Prozessoren verwendet, während in jedem Knoten acht GPUs installiert werden können. Die FP4-Rechenleistung pro GPU beträgt bereits maximal 18 PFLOP/s, was auf dem Papier etwa 10 % weniger ist als beim GB200 Superchip.
Letzterer, also der GB200 Superchip, ist es wert, dass wir auf ihn zurückkommen, da er zwei B200-GPUs mit insgesamt vier Chipsätzen hat und auch eine ARM-basierte Grace-CPU in der Gleichung enthalten ist. Der gesamte TDP-Rahmen für diese Lösung beträgt 2700 W, die zwischen den beiden GPUs und einer CPU aufgeteilt werden. Die Rechenleistung von 20 PFLOP/s für den GB200 gilt nur für die Hälfte des Superchips, da dies die Leistung einer einzelnen B200-GPU ist.
Natürlich sind die reine Rechenleistung und die Speicherbandbreite nicht alles, denn die einzelnen Knoten müssen auch in der Lage sein, sich ausreichend effizient miteinander zu verbinden. Je größer die Anzahl der GPUs wird, desto schwieriger wird es, effizient zwischen ihnen zu kommunizieren, was bis zu 60 % der Zeit und Ressourcen in Anspruch nehmen kann. Aus diesem Grund wurden die fünfte Generation der NVLink-Verbindung und der NVLink Switch 7.2T genannte Switch benötigt.
Insgesamt bietet jeder Blackwell-Grafikprozessor nicht weniger als 18 dieser NVLink-Verbindungen der fünften Generation mit einer Datenübertragungsbandbreite von 100 GB/s pro Verbindung, was einer Gesamtdatenübertragungsbandbreite von 1,8 TB/s entspricht - achtzehnmal mehr als der H100 leisten konnte. Dies ermöglicht es einem größeren Cluster von Grafikprozessoren, so zu arbeiten, als wären sie ein einziger großer, massiver Grafikprozessor, was definitiv ein Vorteil ist. Der neue NVSvitch-Chip ist in der Lage, insgesamt 576 GPUs in der NVLink-Domäne zu verwalten und bietet eine Datenübertragungsbandbreite von 1,8 TB/s in jeder Richtung zu den angeschlossenen Chips.
Der Controller-Chip selbst besteht aus 50 Milliarden Transistoren und verwendet die gleiche TSMC 4NP-Fertigungstechnologie wie die Blackwell-GPUs. Der Chip unterstützt sogar einen 3,6 TFLOP/s Sharp v4 Netzwerk-Computing-Chip, der dazu beiträgt, größere Sprachmodelle effizient zu verarbeiten und die verfügbare Rechenleistung intelligent auf die Workflows zu verteilen. Während die Lösung der vorherigen Generation eine maximale HDR-InfiBand-Bandbreite von 100 GB/s bot, bietet der neue Switch eine achtzehnfach höhere Bandbreite, was zu einer wesentlich besseren Skalierung für explizit große KI-Modelle mit Milliarden von Parametern führt.
Kombiniert man all das, erhält man Nvidias neuen GB200 NVL72, ein vollwertiges Rack mit 18 1U-Servern an Bord, die jeweils zwei GB200 Superchips beherbergen. Diese Generation verfügt nicht mehr über eine GPU und eine CPU wie beim GH100, wo eine GH100-GPU an die Grace-CPU angeschlossen ist, sondern über zwei Grace-CPUs und insgesamt vier B200-GPUs. Die flüssigkeitsgekühlten Schubladen bieten 80 PFLOP/s FP4- und 40 PFLOP/s FP8-Rechenleistung. Das System umfasst auch NVLink Switch-Schubladen, die ebenfalls flüssigkeitsgekühlt sind und zwei NVLink Switches pro Schublade enthalten. Ein komplettes Rack kann neun dieser Einschübe enthalten. Jeder Einschub hat eine Gesamtbandbreite für die Datenübertragung von 14,4 TB/s und ist mit dem Sharp v4-Rechenmodul ausgestattet.
Das gesamte GB200-NVL72-Rack beherbergt insgesamt 36 Grace-CPUs und 72 Blackwell-GPUs für eine FP8-Rechenleistung von insgesamt 720 PFLOP/s, während die FP4-Rechenleistung mit 1440 PFLOP/s doppelt so hoch ist. Laut Nvidia beträgt die Multiknoten-Datenübertragungsbandbreite 130 TB/s, und das System kann Modelle mit bis zu 27 Billionen Parametern verarbeiten, was die Tür zu einer breiten Palette von Möglichkeiten für große Sprachmodelle öffnet. Die übrigen 42 Schubladen des gesamten Racks beherbergen die Komponenten, die die Netzwerkverbindungen und andere im Rechenzentrumsbereich verwendete Hardware verwalten.
Hinzu kommt die neueste Version des DGX SuperPOD, ein Blackwell-basierter Supercomputer-Cluster. Das flüssigkeitsgekühlte System erreicht dank der DGX GB200-Einheiten im Inneren eine schwindelerregende maximale Rechenleistung von 11,5 EXAFLOP/s für FP4-Operationen und verfügt zudem über insgesamt 240 TB superschnellen On-Board-Speicher. Jeder DGX GB200 enthält 36 Nvidia Grace CPUs und 72 Nvidia Blackwell GPUs. Die DGX GB200-Systeme erreichen jeweils eine Rechenleistung von 144 PFLOP/s für FP4-Operationen und verfügen über 1,4 TB GPU-Speicher mit einer Speicherbandbreite von 64 TB/s.
Dank der bereits erwähnten In-Network-Computing-Leistung von 14,4 TFLOP/s ergibt sich eine vierfache Geschwindigkeitssteigerung gegenüber der vorherigen Generation der DGX SuperPOD-Architektur. Laut Nvidia können Kunden Systeme mit bis zu 576 Blackwell-GPUs aus acht DGX GB200-Systemen bauen, die über die fünfte Generation von NVLink miteinander verbunden sind.
Die oben genannten Konfigurationen werden im Laufe des Jahres verfügbar sein, aber es wurde noch kein Preis oder genaues Veröffentlichungsdatum bekannt gegeben.