Das Huawei-Team wird im Mai die nächste Generation der HiSilicon Asced 910-Serie von Beschleunigerkarten für den KI- und HPC-Markt an seine Partner ausliefern, die bereits jetzt eine bessere Leistung als die H100-Lösung bieten, die auf der Hopper-Architektur von Nvidia basiert.
Es wird erwartet, dass der KI-Beschleuniger des Typs Ascend 910D langsamer ist als die Lösungen Blackwell B200 und Blackwell Ultra B300 von Nvidia, und die auf der Ruby-Architektur basierenden Modelle könnten diese beim Vergleich der einzelnen Beschleuniger durchaus übertreffen. Natürlich hat das chinesische Unternehmen bereits eine Lösung für dieses Problem gefunden: Es bietet seine Produkte in Racks an, die Hunderte von Beschleunigern enthalten und mit den Blackwell- und Rubin-Serien konkurrieren können, zumindest in Bezug auf die Leistung, aber die Energieeffizienz ist eine andere Geschichte, keine schöne, wenn wir in die Vergangenheit zurückgehen.
Mit dem Ascend 910D möchte der Hersteller einen Beschleuniger anbieten, der den H100 von Nvidia für Partner, die in den chinesischen Markt eintreten wollen, übertrifft, insbesondere da Nvidia den H20-Beschleuniger, der speziell auf China zugeschnitten ist, nicht mehr ausliefert. Huawei versucht, das Beste aus dieser Gelegenheit zu machen, und hat sich laut Reuters-Quellen bereits an einige lokale Unternehmen gewandt, um den Beschleuniger der Ascend 910D-Serie zu testen, um zu sehen, ob er ihren Anforderungen entspricht, wobei die ersten frühen Testmuster bereits Ende Mai an Unternehmen geliefert wurden.
Es bleibt abzuwarten, wo genau der KI-Beschleuniger Ascend 910D gebaut werden wird. Theoretisch könnte das Unternehmen die Dienste von Chinas SMIC in Anspruch nehmen, sofern die verfügbaren Fertigungstechnologien für den Chip geeignet sind. Alternativ könnte es sich an TSMC wenden, wenn es ihm gelingt, einen weiteren kreativen Trick zu finden, um die US-Sanktionen zu umgehen.
Es wird keine leichte Aufgabe sein, das Leistungsniveau des H100-Beschleunigers von Nvidia zu erreichen, da das Ascend 910C eine BF16-Rechenleistung von 780 TFLOP/s hat, während der H100 in derselben Kategorie eine Leistung von etwa 2000 TFLOP/s aufweist. Um dieses Niveau mit dem Ascend 910D zu erreichen oder gar zu übertreffen, müssen die Ingenieure des Unternehmens die aktuelle Architektur komplett neu gestalten und wahrscheinlich mehr Chipsätze im Gehäuse unterbringen.
Natürlich könnte selbst dies nicht ausreichen, um mit Produkten zu konkurrieren, die auf den Blackwell- und Ruby-Architekturen basieren. Daher bleibt nur der Verkauf von Clustern mit Hunderten von KI-Beschleunigern. Der Anbieter bietet mit der CloudMatrix 384 bereits eine Lösung an, die das GB200-basierte NVL72-Rack von Nvidia bei bestimmten Aufgaben übertreffen kann, allerdings zu einem höheren Preis: Das niedrigere Verhältnis von Leistung zu Verbrauch bedeutet, dass die Lösung von Huawei, die auch mehr als die fünffache Anzahl an Beschleunigern enthält, um eine hohe Leistung zu bieten, mit einem viel höheren Stromverbrauch arbeitet. Dieses Konzept könnte in Zukunft zum Einsatz kommen, wenn das Verbindungssystem mit der erhöhten Leistung skaliert werden kann.
Für Huawei wird es immer schwieriger, leistungsstarke KI-Beschleuniger zu produzieren, da das Unternehmen keinen offiziellen Zugang zu den modernsten Fertigungstechnologien hat, die für den Erfolg erforderlich sind. Nvidia beispielsweise könnte N3- oder fortschrittlichere Chipbreiten für KI- und HPC-Beschleuniger einsetzen, die auf der Ruby-Architektur basieren, die bereits 2026 auf den Markt kommen könnte. Es wird erwartet, dass Rubin eine FP8-Rechenleistung von bis zu 8300 TFLOP/s erbringen kann, während der BF16 mit 4150 TFLOP/s nur halb so schnell sein soll wie der B200. Wenn Huawei das CloudMatrix 384-System mit Ascend 910D KI-Beschleunigern ausstattet, könnte es in Bezug auf die Leistung mit Nvidias NVL72-Racks mit KI-Beschleunigern der Rubin-Serie konkurrieren, aber es wird wahrscheinlich in Bezug auf die Energieeffizienz viel schlechter sein, schon allein wegen der veralteten Streifenbreite.
So oder so könnte das Ascend 910D in China an Popularität gewinnen, da die leistungsstarken KI-Beschleuniger von Nvidia nicht mehr in das Land geliefert werden, zumindest nicht offiziell, und es gibt in dieser Hinsicht bis zum Erscheinen des Ruby keine Änderung, zumindest keine positive fast sicher. Die einzige Frage ist, wie Huawei es schaffen wird, neue KI-Beschleuniger mit einer wettbewerbsfähigen Bandbreite zu produzieren. Nach derzeitigem Kenntnisstand sind die hiesigen Waferbreiten dafür nicht wirklich geeignet, und westliche Technologien stehen dem Unternehmen offiziell nicht zur Verfügung, aber es besteht die Chance, dass sie ihre Waren wieder über Zwischenhändler bei den großen westlichen Halbleiter-Auftragsfertigern, sogar TSMC, herstellen.