Amazon hat diese Woche mehrere wichtige Ankündigungen zu KI-bezogenen Innovationen gemacht, deren Softwareteile in dieser Nachricht behandelt werden. Die Präsentation enthielt auch einige Hardware-Neuigkeiten, darunter die Ankündigung eines neuen KI-Supercomputer-Clusters, der eine neue Hochleistungsrechenleistung bieten wird, die durch Trainium-2-Beschleuniger voraussichtlich 65 ExaFLOP/s Rechenleistung liefern wird. Trainium 3 ist neben Trainium 2 bereits in der Pipeline, und es wurden auch einige Informationen zu dieser Entwicklung bekannt gegeben: Der neue KI-Beschleuniger wird die vierfache Rechenleistung des aktuellen Beschleunigers bieten können, was eine enorme Verbesserung darstellt.
Trainium 2 selbst ist Amazons KI-Beschleuniger der zweiten Generation, eine dedizierte Zielhardware, die speziell für das Training verschiedener KI-Modelle entwickelt wurde, d. h. hauptsächlich für das Foundation Model (FM) und das Large Languake Model (LLM), die von Annapurna Labs, einer Amazon-Tochtergesellschaft, entwickelt wurden.
Der spezialisierte KI-Beschleuniger hat ein Multi-Chiplet-Design: Die Verkapselung enthält die Verarbeitungseinheiten in zwei Chiplets und insgesamt 96 GB On-Board-HBM3-Speicher, der von vier Speicherchip-Sandwiches bereitgestellt wird. Der Chip verfügt außerdem über zwei "statische Chiplets", um eine einheitlichere und stabilere Schnittstelle zu schaffen - eine Lösung, die bereits bei Chips anderer Hersteller wie AMD zu finden ist.
Bei der Ankündigung des Trainium 2-Beschleunigers im letzten Jahr hat das Amazon-Team keine genauen Angaben zur Rechenleistung gemacht, aber jetzt heißt es, dass Trn2-Systeme bis zu 100.000 Prozessoren in einer einzigen Einheit enthalten könnten, mit einer kombinierten Low-Precision-Rechenleistung von 65 ExaFLOP/s. Dies könnte tatsächlich bedeuten, dass ein solcher Chip eine Rechenleistung von 650 TFLOP/s erbringen könnte, aber es ist nicht klar, mit welcher Genauigkeit - der nächste Absatz und die Folie unten könnten dies beantworten.
Auf der aktuellen Veranstaltung wurde bekannt gegeben, dass die von AWS angebotene Amazon Elastic Compute Cloud jetzt auf der Grundlage von Trainium-2-Beschleunigern verfügbar ist. Eine solche Instanz - oder virtuelle Maschine, wenn Sie so wollen - kann insgesamt 16 Trainium 2-Prozessoren hosten, die über NeuronLink verbunden sind. Das System ist in der Lage, eine Rechenleistung von bis zu 20,8 PetaFLOP/s bei FP8-Präzision zu erzielen, und verfügt über 1,5 TB integrierten HBM3-Speicher, der eine Speicherbandbreite von 46 TB/s bietet.
Auf dieser Grundlage beläuft sich die Leistung jeder Trainium 2 SoC-Einheit auf 1,3 PetaFLOP/s, was bedeuten könnte, dass die oben genannten 650 PFLOP/s Rechenleistung für FP16-Operationen gelten. Wenn wir die FP8-Leistung von 1,3 PFLOP/s als Maßstab nehmen, können wir sehen, dass der Abstand im Vergleich zum Nvidia H100, der 1,98 PFLOP/s erreicht, nicht dramatisch ist.
Das Unternehmen baut auch EC2 Trn2 UltraServer-Konfigurationen, die bereits über 64 miteinander verbundene Trainium 2 SoCs verfügen, gekoppelt mit 6 TB integriertem HBM3-Speicher. Die Chips werden eine FP8-Rechenleistung von 83,2 PFLOP/s haben, während die Speicherbandbreite bis zu 185 TB/s erreicht. Die Systeme werden über ein Elastic Fabric Adapter-Netzwerk verbunden sein, das eine Datenbandbreite von 12,8 Tbps bietet.
Die letzte große Ankündigung auf Trainium 2 war, dass AWS und Anthropic einen speziell entwickelten Supercomputer-Cluster namens Project Rainier bauen. Dieses System wird Hunderttausende von Trainium 2 SoC-Einheiten enthalten und die fünffache Rechenleistung dessen haben, was Anthropic derzeit für seine führenden KI-Modelle wie Sonnet und Opus verwendet. Leider wurde nicht genau bekannt gegeben, wie viele SoC-Einheiten in dem Supercomputer-Cluster enthalten sein werden, aber 100.000 dieser Beschleuniger werden eine FP8-Rechenleistung von 130 ExaFLOP/s erbringen, was ungefähr 32768 Nvidia H100-Beschleunigern entspricht.
Schließlich wird auch über die nächste Generation des Trainium-Chips, Trainium 3, gesprochen, der mit der N3-Fertigungstechnologie von TSMC hergestellt werden soll und eine enorme Leistungssteigerung gegenüber seinen Vorgängern darstellen wird. Der Beschleuniger, der im Jahr 2025 auf den Markt kommen soll, könnte die vierfache maximale Rechenleistung bieten und damit die Möglichkeiten des Unternehmens erheblich erweitern.
Die vierfache Beschleunigung bedeutet auch, dass Trn3-basierte UltraServer-Konfigurationen viermal schneller sein werden als ihre Trn2-basierten Gegenstücke, mit dem Potenzial, 332,9 ExaFLOP/s an Rechenleistung bei FP8-Genauigkeit zu erreichen. Dies entspricht einer FP8-Rechenleistung von 5,2 PFLOP/s pro Prozessor, wenn man davon ausgeht, dass die Anzahl der SoC-Einheiten wie bisher 64 bleibt.