Morgan Stanley hat eine interessante Analyse veröffentlicht, die Aufschluss über die ungefähren Kosten für die Kühlung eines Nvidia-KI-Racks vom Typ NVL72 auf der Grundlage von Blackwell Ultra gibt. Die von der Hochleistungshardware erzeugte Wärme wird durch ein einzigartiges Flüssigkeitskühlsystem in Schach gehalten, was einen enormen Aufwand bedeutet, aber die zugrunde liegende Hardware ist nicht gerade billig.
Die Kosten für ein Kühlsystem in einem einzelnen Rack-Schrank sollen sich auf 49.860 $ belaufen, was sich lohnt, wenn man bedenkt, dass der Stromverbrauch einer Schublade in der Größenordnung von 6,6 KW liegen kann und ein Schrank aus 18 Schubladen besteht. Jede Schublade enthält zwei Grace-Prozessoren und acht Blackwell Ultra-GPUs, wobei erstere jeweils 300 W und letztere jeweils 1400 W verbrauchen, während der SoCAMM-Speicher 200 W pro Steckplatz verbraucht. Die Flüssigkeitskühlung versorgt daher zwei Prozessoren und acht GPUs pro Schublade, mit passiven Kühlkörpern auf den SoCAMM-Speichermodulen. Das dedizierte Flüssigkühlungs-Kit sollte insgesamt 6,2 KW Kühlleistung pro Schublade bereitstellen, ein enormer Bedarf.
Der Preis der Kühlkomponenten für jede Schublade liegt bei etwa 2260 $, so dass sich bei 18 Schubladen ein Betrag von 40680 $ ergibt. Gleichzeitig kostet die Kühlung der NWSwitch-Einschübe 1020 $ pro Stück, bei 9 Einschüben im System also 9180 $. Die teuersten Komponenten sind natürlich die einzelnen Flüssigkeitskühlblöcke zur Kühlung der Prozessoren und GPUs, die jeweils 300 $ kosten, während der Flüssigkeitskühlblock über dem NVSwitch ASIC einen Stückpreis von 200 $ hat.
Die Analysten von Morgan Stanley haben auch berechnet, wie viel die Kühlung des Vera Rubin NVL144 Rack-Gehäuses der nächsten Generation kosten wird. In diesem Fall werden die Kosten voraussichtlich um etwa 18 % steigen, was bedeutet, dass die Kosten pro Schublade 2.660 $ betragen könnten. Die Kosten für die Kühlung der Schubladen, in denen sich die Computerhardware befindet, könnten auf 47.880 $ steigen, wobei die Anzahl der Schubladen gleich bliebe, während die Kosten für die Flüssigkeitskühlblöcke, die zur Kühlung der leistungsstärkeren Hardware beitragen, auf 400 $ pro Stück steigen würden. Im Vergleich dazu sinken die Kosten für die Komponenten, die zur Kühlung der Switch-Einschübe verwendet werden, was bedeutet, dass die Kühlung eines Einschubs 870 Dollar kostet, was sich in Kosten für einen Rack-Schrank von 7.830 Dollar niederschlagen könnte.
Der Wechsel von GB200-Systemen zu GB300-Hardware erhöht die Kosten für die Kühlung um 20 %, während der Wechsel von GB300-basierten NVL72-Systemen zu Vera Rubin-basierten NVL144-Systemen die Kosten um 17 % erhöht, so dass sich die Kosten für einen kompletten Rack-Schrank auf insgesamt 55710 $ belaufen. Mit der Vera Rubin-Plattform können Rubin-basierte GPUs mit jeweils 1800 W betrieben werden, und diese Zahl verdoppelt sich für Rubin Ultra.
Die Rubin-Ultra-GPU-Serie wird vier GPU-Chips und 16 HBM4E-Chips in einem einzigen Gehäuse haben, was zu einem TDP-Rahmen von 3600 W führt, was den Einsatz neuer Flüssigkeitskühlblöcke mit höherer Kühlkapazität erfordert, die natürlich teurer sein werden. Alternativ kann in einigen Fällen auch eine Immersionskühlung in Frage kommen, bei der die Hardware in eine elektrisch nicht leitende Flüssigkeit getaucht wird - solche Systeme werden unter anderem von Intel entwickelt. Nvidias NVL576 Kyber-Rackmount-Gehäuse, die bereits 144 GPU-Chips an Bord haben, können die doppelte Leistung des Vera Rubin NVL144 bieten, das 72 GPU-Chips hat, allerdings bei einem viel höheren Stromverbrauch.
Die Ableitung der Wärme, die von Hardware mit dieser Leistung und diesem Stromverbrauch erzeugt wird, kann eine Herausforderung sein, die sich auch in den Kosten niederschlägt, d. h. ein Flüssigkeitskühlblock, der 3,6 KW Wärme ableiten kann, kann mehr als 400 $ kosten. Womit genau wird der Rubin Ultra basierte NVL576 Kyber-Rackschrank gekühlt werden? Mit der Zeit werden wir eine Antwort darauf haben.