Auf der GTC 2026 hat Nvidia eine Reihe interessanter Neuerungen vorgestellt, darunter den 88-Kern-Prozessor Vera, der AMD und Intel auf dem Servermarkt die Stirn bieten soll. Der Chef des Unternehmens hat einige Details über die neue Entwicklung verraten, die darauf hindeuten, dass sie einen sehr beeindruckenden Prozessor auf den Tisch legen werden. Laut Nvidia ist der Olympus-Kern, der der Vera-CPU zugrunde liegt, im Wesentlichen 50 % schneller als jeder x86-Kern, und seine Energieeffizienz ist mit einem Vorteil von 90 % gegenüber konkurrierenden Lösungen beeindruckend.
Der Vera-Prozessor verfügt über 88 Kerne und 176 Threads, verwendet aber nicht mehr die Standardlösung von ARM wie der Vorgänger Grace, sondern einen selbst entwickelten Olympus-Prozessorkern, der auf der ARM v9.2-A-Architektur aufbaut und in mehrfacher Hinsicht einzigartig ist. Eine wichtige Verbesserung des neuen Prozessorkerns besteht darin, dass er SMT (Simultaneous Multi-Threading) überdenkt und stattdessen Spatial Multi-Threading einsetzt, bei dem die Nutzung von Schlüsselkomponenten nicht zeitlich zwischen den beiden Threads eines bestimmten Prozessorkerns aufgeteilt wird, sondern die verschiedenen Komponenten des Läufers räumlich getrennt sind.
Während die normale SMT-Unterstützung Zeitscheiben verwendet, um sicherzustellen, dass die beiden Threads abwechselnd auf die benötigten Ressourcen zugreifen können, ermöglicht die Lösung von Nvida, dass beide Threads tatsächlich gleichzeitig auf demselben Kern laufen, was die Leistung von ILP (Instruction Level Parallelism) erhöht und die Leistung vorhersehbarer macht, da das System Operationen an ungenutzte Elemente weiterleiten kann, um eine vollständige Nutzung zu gewährleisten.
Darüber hinaus befinden sich die 88 Prozessorkerne in einer einzigen Domäne, so dass keine latenzerhöhenden NUMA-Operationen erforderlich sind, ganz im Gegensatz zu dem Weg, den die x86-Konkurrenten mit hohen Kernen derzeit einschlagen. Dies verbessert die Latenzzeit, vereinfacht die Programmierung, erhöht die Bandbreite und ermöglicht eine effizientere Leistungsplanung. Den Prozessorkernen sind insgesamt 162 MB gemeinsam genutzter Tertiär-Cache zugeordnet.
Darüber hinaus verfügt der Olympus-Kern über das gleiche 10-breite Instruction Fetch und Instruction Decode Front End wie die Chips der M-Serie von Apple. Zur weiteren Steigerung der Single-Thread-Leistung ist der Neural Branch Predictor an Bord, der zwei Verzweigungsschätzungen in einem einzigen Taktzyklus durchführen kann. Das Mesh-Netzwerk, das die Prozessorkerne miteinander verbindet, wurde ebenfalls verbessert, wobei der Grace immer noch 546 GB/s Gesamtspeicherbandbreite bietet, die im Durchschnitt 7,6 GB/s pro Kern beträgt. Im Vergleich dazu hat Vera jetzt eine kombinierte Bandbreite von 1,2 TB/s, d. h. 13,6 GB/s pro Kern bei voller Auslastung, aber wenn die Kerne nicht gleichmäßig ausgelastet sind, kann ein einzelner Kern über eine Bandbreite von bis zu 80 GB/s verfügen, was bei bandbreitenintensiven Aufgaben einen enormen Geschwindigkeitszuwachs bedeuten kann.
Das Speichersubsystem besteht aus 1,5 TB SOCAMM-Speichermodulen auf LPDDR5-Speicherchips, was einer Verdreifachung der Kapazität im Vergleich zum vorherigen System entspricht. Der Prozessor hat auch NVLink-C2C-Unterstützung für die Inter-Chip-Kommunikation mit einer Datenübertragungsbandbreite von 1,8 TB/s erhalten, doppelt so viel wie bei Grace und siebenmal schneller als die PCI Express 6.0-Bandbreite. Die Entwicklung, die auch gut in ein Dual-Prozessor-System passt, kann sowohl PCI Express 6.0 als auch CXL 3.1 unterstützen.
Die Vera-CPU kann in speziellen Racks geliefert werden, die 256 Vera-Prozessoren, jeweils mit Flüssigkeitskühlung, 74 Bluefield-4 DPUs und ConnectX SuperNIC-Netzwerkkomponenten enthalten. Jedes Rack kann bis zu 400 TB LPDDR5-Systemspeicher mit einer Speicherbandbreite von 300 TB/s aufnehmen. Mit insgesamt 45056 Threads kann das System insgesamt 22500 Prozessorumgebungen parallel und unabhängig betreiben.
Laut Nvidia bietet der Vera-Prozessor eineinhalbmal mehr Leistung pro Sandbox als seine x86-Konkurrenten, während er gleichzeitig dreimal mehr Speicherbandbreite pro Prozessorkern verbraucht und mit einer doppelt so hohen Energieeffizienz arbeitet. Die neue Entwicklung kann auch die anderthalbfache IPC des Grace-Prozessors liefern, d. h. anderthalbmal mehr Operationen pro Takt, eine enorme Verbesserung, wenn man bedenkt, dass die Leistungszuwächse zwischen den Generationen auf dem Prozessormarkt in der Regel geringer sind als diese.
Man könnte meinen, dass die Vera-CPU in erster Linie für Meta bestimmt ist, da Nvidia und Meta vor kurzem eine neue Vereinbarung unterzeichnet haben. Es hat sich jedoch herausgestellt, dass das Unternehmen die neue Plattform auch an andere Partner liefern wird, darunter Nebius, Alibaba, Oracle und Coreweave. Vera-Prozessoren werden natürlich auch ein integraler Bestandteil der Vera-Ruby-Plattform sein.
Nach Angaben von Nvidia befinden sich die Vera-Prozessoren bereits in der Massenproduktion, und die ersten Einheiten werden voraussichtlich in der zweiten Jahreshälfte ausgeliefert.