Beschleuniger für den KI- und HPC-Markt verwenden derzeit HBM3- oder HBM3E-Speicherchip-Sandwiches, die eine enorme Speicherbandbreite und Speicherkapazität bieten. Da jedoch große Sprachmodelle und andere KI-bezogene Aufgaben immer komplexer und ressourcenintensiver werden, sind Verbesserungen nicht nur bei den GPUs, sondern auch beim Speichersubsystem erforderlich. Kontinuierliche Verbesserungen werden zu effizienteren Speicherchip-Sandwiches mit höherer Datendurchsatzbandbreite und höherer Kapazität führen. Der nächste Schritt wird der mit Spannung erwartete HBM4 sein, der in mehreren Bereichen Verbesserungen gegenüber der vorherigen Generation bringen wird.
Die grundlegende Architektur bleibt unverändert, d. h. HBM-Speicherchips können innerhalb des Speicherchip-Sandwichs übereinander gestapelt werden, das als einzelner HBM-gekapselter Speicherchip erhältlich sein wird. Mit der Einführung von HBM4 wird die Speicherdatenrate von 1024 Bit auf 2048 Bit steigen, was im Wesentlichen eine Verdoppelung bedeutet, und mit Datenübertragungsraten von bis zu 8 Gbit/s einhergehen, was Speicherbandbreiten von bis zu 2 TB/s ermöglicht. Eine der größten Neuerungen ist, dass es jetzt 32 statt 16 unabhängige Speicherkanäle pro Speicherchip-Sandwich gibt, die zwei Unterkanäle haben können.
Der breitere Datenkanal trägt dazu bei, die Flexibilität beim Speicherzugriff zu erhöhen und auch einen höheren Grad an Parallelität bei den Speicheroperationen zu erreichen, was die Leistung steigert. Eine besonders wichtige architektonische Änderung besteht darin, dass HBM4 nun über eine Trennung von Befehls- und Datenbussen verfügt, was zu einer Verringerung der Latenzzeiten beiträgt und die Leistung bei Mehrkanaloperationen erhöht, was sich besonders gut für den AI- und HPC-Markt eignet. HBM4 verwendet außerdem einen neuen physikalischen Koppler, der die Signalintegrität erhöht und höhere Datenbandbreiten bedienen kann.
In Bezug auf die Energieeffizienz bietet der JESD270-4-Standard einen herstellerspezifischen Spannungsbereich, was bedeutet, dass VDDQ auf 0,7 V, 0,75 V, 0,8 V oder 0,9 V eingestellt werden kann, während VDDC-Optionen 1,0 V und 1,05 V umfassen. Durch die Möglichkeit der Feinabstimmung kann der Stromverbrauch gesenkt und die Energieeffizienz erhöht werden, so dass die Implementierung an die Bedürfnisse des jeweiligen Systems angepasst werden kann. Ein sehr wichtiges Extra ist, dass der HBM4-Speicherchip-Standard auch für die Verwendung mit Speicher-Controllern mit HBM3-Unterstützung verfügbar sein wird, d.h. die Abwärtskompatibilität ist gewährleistet, so dass ein bestimmter Speicher-Controller sowohl HBM3- als auch HBM4-Speicherchip-Sandwiches verwenden kann. Die Abwärtskompatibilität trägt auch zur Verbreitung des HBM4-Speicherstandards bei und bietet Flexibilität beim Design.
Jedes HBM4-Speicherchip-Sandwich kann in einer Vielzahl von Konfigurationen hergestellt werden, die von 4 bis 16 Speicherchips mit einer Kapazität von 24 Gb oder 32 Gb reichen. Ein 16-Hi-HBM4-Speicherchip-Sandwich kann daher bis zu 64 GB Speicherkapazität bieten, was zu einer höheren Speicherdichte beiträgt, was wiederum dem KI- und HPC-Markt hilft, Workflows effizienter und mit besserer Leistung auszuführen.
Eine wichtige neue Funktion für HBM4 ist die Einführung des Directed Refresh Management (DRFM), das einen verbesserten Schutz vor Rowhammer-Effekten bietet und damit die Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit erhöht.
Der HBM4-Standard wurde in breiter Zusammenarbeit mit der Industrie, einschließlich Samsung, Micron und SK Hynix, entwickelt, was zu einem weithin anerkannten Standard führte. Beschleuniger, die auf HBM4 basieren, sollen schon bald erhältlich sein, und Samsung will noch in diesem Jahr mit der Massenproduktion von Speicherchips beginnen, die auf dem neuen Speicherstandard basieren.
Mit dem Erscheinen von HBM4 werden die Branchenakteure in der Lage sein, Beschleuniger zu bauen, die sich auf höhere Speicherbandbreiten stützen, die mit einer höheren Speicherkapazität versehen werden können, wodurch die Leistung gesteigert wird und mehr Daten in einer Zeiteinheit verarbeitet werden können, was insbesondere für die Entwicklung von KI-ähnlichen Technologien erforderlich ist.