Intel hat auf der Vision 2024 eine sehr wichtige Entwicklung vorgestellt, das neueste Produkt der Gaudi-Serie, den Gaudi3, der den Gaudi2 ablöst, der von Habana Labs entwickelt wurde, einem Unternehmen, das Intel vor 5 Jahren übernommen hat. Die kommende Entwicklung, Gaudi3, ist in mehreren Bereichen eine große Verbesserung gegenüber ihrem Vorgänger und kann es sogar mit den Produkten von Nvidia, dem Marktführer bei KI- und HPC-Beschleunigern, aufnehmen - mit vielversprechenden Ergebnissen.
Der Gaudi3 basiert auf zwei Chips, die in der TSMC-Fertigung mit einer Waferbreite von 5 nm hergestellt wurden. Die beiden Wafer enthalten jeweils 32 Tensor-Kerne, eine Lösung der 5. Generation, die eine Verbesserung gegenüber den 24 Tensor-Kernen von Gaudi2 darstellt. Jeder Chip erhält außerdem 48 MB SRAM, so dass insgesamt 96 MB SRAM und 64 Tensor-Kerne der fünften Generation verbaut sind.
Die Speicherbandbreite für SRAM ist mit 12,8 TB/s sehr hoch, aber die Verkapselung umfasst auch einige On-Board-HBM2e-Speicher. Während die HBM2e-Chips in Gaudi2 nur eine Speicherbandbreite von 2,45 TB/s hatten, kann das neueste Upgrade nun eine Speicherbandbreite von 3,7 TB/s bereitstellen, und die Speicherkapazität wurde von 96 GB auf 128 GB HBM2e-Chips erhöht.
Der neue Beschleuniger für den KI- und HPC-Markt ist in verschiedenen Ausführungen erhältlich: Die Karte im PCI-Express-Format, das HL-388-Design, nutzt die PCI-Express-5.0-Schnittstelle mit 16 Lanes. Diese Version soll einen TDP-Rahmen zwischen 450 W und 600 W haben, was in dieser Kategorie nicht sehr üblich ist. Gleichzeitig hat der Hersteller auch Ausgaben im OAM-Format produziert, die als HL-328, HL-325L und HL-335 bezeichnet werden.
Der TDP-Rahmen reicht je nach Modell von 450 W bis zu 900 W. Die HL-328- und HL-325L-Beschleuniger nutzen die Luftkühlung, die von den Systemkühlern der jeweiligen Server bereitgestellt wird, wodurch der TDP-Rahmen bei 450 W bzw. 900 W bleibt. Die HL-335-Version mit einer TDP von 900 W kann dagegen flüssigkeitsgekühlt werden.
Was für eine Leistung können wir von diesen Neuzugängen erwarten? Leider sind derzeit nur Herstellerangaben verfügbar, und diese sollten mit einem gesunden Maß an Misstrauen behandelt werden. Laut Intels Vorhersagen kann die Gaudi3 im Vergleich zur konkurrierenden Nvidia H100 je nach Sprachmodell (LLM) einen durchschnittlichen Geschwindigkeitszuwachs von 1,4 bis 1,5 erreichen.
Bei den Deduktionsaufgaben variiert die Leistung je nach Aufgabe, wobei die Ergebnisse von einem 10 %igen Abstand bis zu einem Vorteil von 70 % oder mehr reichen. Im Vergleich zum H200 gibt es bereits einen 20%igen Nachteil und einen 3,8-fachen Vorteil bei jedem Test, mit einer durchschnittlichen Beschleunigungsrate von nur 1,3-fach. Der Gaudi3 selbst ist laut Intel in Bezug auf die Energieeffizienz nicht schlecht und übertrifft den marktführenden Nvidia H100 um das 1,2-fache und 2,3-fache, was eine gute Nachricht ist, da es zeigt, dass Intel mit Nvidia auf dem KI- und HPC-Beschleunigermarkt konkurrieren will, und die Richtung ist nicht schlecht.
Die Herstellervergleiche beschränkten sich diesmal ausschließlich auf Nvidias H100- und H200-Modelle, AMDs Mitglieder der Instinct-Serie wurden nicht mit Gaudi3 verglichen, obwohl AMDs Lösungen der MI300A- und MI300X-Serie recht gut abschnitten. Es sollte auch nicht vergessen werden, dass Nvidia bereits Blackwell-basierte Produkte angekündigt hat, die einen erheblichen Geschwindigkeitszuwachs gegenüber ihren Hopper-basierten Gegenstücken bieten, so dass Intel Gaudi3 eine Menge zu tun hat, wenn es mit ihnen konkurrieren will. Der Hersteller plant, Gaudi3 deutlich billiger zu machen als die Produkte von Nvidia, hat aber nicht genau gesagt, welche Preise die Marktteilnehmer erwarten können. Wenn die Preisgestaltung stimmt, könnte Intel in der Lage sein, ein Stück von Nvidias imaginärem Kuchen abzubekommen.
Intel plant, Gaudi3 in der ersten Jahreshälfte in Form von Mustern für Partner zur Verfügung zu stellen, wobei größere Lieferungen in der zweiten Jahreshälfte beginnen sollen. Es ist zu hoffen, dass bald die ersten unabhängigen Tests veröffentlicht werden, um zu sehen, wie die Lösungen von Nvidia, Intel und AMD im Vergleich zueinander abschneiden.