Der KI-Hype dreht sich unaufhaltsam weiter, auch wenn mehrere Analysten bereits zuvor angedeutet haben, dass die Blase früher oder später platzen wird, wenn es nicht gelingt, hinter den zahlreichen Kapitalinvestitionen genügend Umsatz zu generieren, damit sich die Investition innerhalb eines sinnvollen Zeitraums amortisiert – denn dies ist auch notwendig, um weitere Kapitalinvestitionen finanzieren zu können.
KI breitet sich gerade in verschiedenen Branchen aus, kann in immer mehr Bereichen als nützliches Hilfsmittel dienen, und es finden immer mehr dedizierte Beschleuniger in immer neueren Konfigurationen Platz, wodurch sie einen immer größeren Einfluss auf den Markt ausüben kann – was wiederum dazu beitragen könnte, das oben genannte Problem zu beheben. In diese Richtung weist auch die Einführung einer neuen Prozessorerweiterung namens „AI Computational Extensions“, deren Ziel es ist, eine einheitliche Grundlage für verschiedene KI-Workflows auf Intel- und AMD-Prozessoren zu schaffen, da sie die wichtigsten Rechenaufgaben innerhalb standardisierter Rahmenbedingungen beschleunigen kann.
Dies ist von außerordentlicher Bedeutung, da auch im Bereich der NPUs die Schwierigkeit besteht, dass sich die einzelnen Lösungen stark voneinander unterscheiden, was die Arbeit der Entwickler erschwert. Im Rahmen von ACE werden die auf der x86-64-Befehlssatzarchitektur basierenden Prozessoren einheitliche, mit einem einzigen Code-Band ansteuerbare dedizierte Festfunktions-Hardware, die KI-Aufgaben wesentlich effizienter ausführen kann als die derzeitigen Methoden, bei denen die Aufgabenausführung ebenso wenig optimal ist wie die Leistung und die Energieeffizienz.
ACE basiert im Wesentlichen auf den AVX10-Registern, stützt sich jedoch gleichzeitig auf dedizierte Hardware, über die sowohl die Intel- als auch die AMD-Prozessoren der nächsten Generation verfügen werden, wodurch Matrixmultiplikationsoperationen, die die Eckpfeiler von KI-Workflows bilden, auf dem jeweiligen Prozessor wesentlich schneller und effizienter ausgeführt werden können, was zu einer besseren Leistung und einer höheren Energieeffizienz führt; durch die Optimierungen wird zudem sogar der Overhead reduziert.
Die Neuerung kann Entwicklern die Arbeit erleichtern, da sie sich auf einen einheitlichen Hardwaretyp konzentrieren müssen, wenn sie das Potenzial des ACE-Erweiterungsmoduls ausschöpfen wollen, und im Vergleich zur herkömmlichen, prozessorbasierten Arbeitsweise ist sogar eine bis zu 16-fache Leistungssteigerung möglich, d. h., die jeweilige Zentraleinheit kann zumindest theoretisch um diesen Faktor mehr Operationen ausführen. Die Praxis kann davon abweichen und wird wahrscheinlich auch abweichen, da die konkrete Leistung von der jeweiligen Aufgabe und der Implementierung abhängt. Im Vergleich zum klassischen AVX10-basierten Arbeitsablauf kann ACE mehr Befehle ausführen, die Speicherbandbreite besser nutzen und zudem wird der durch die Verteilung und Taktung der Befehle entstehende zusätzliche Aufwand (Overhead) geringer sein, was sich auch positiv auf den Stromverbrauch auswirken kann.
Die ACE-Erweiterung wird die meisten Datentypen unterstützen, die für die Ausführung von KI-bezogenen Workflows wichtig sind, d. h. unter anderem werden FP4, FP6, FP8, FP16, BF16, FP32, INT8 sowie INT32 – und zwar nativ. Ein zusätzlicher Vorteil ist, dass ACE im Gegensatz zu AVX-10 auch die blockbasierten Formate des Compute Project MX nutzen kann, und zwar ebenfalls nativ.
Dank dieser Funktionen können Entwickler zeit- und latenzkritische Aufgaben, die unbedingt schnell erledigt werden müssen, bei Bedarf von der NPU auf die ACE-kompatiblen dedizierten Beschleuniger der CPU verlagern, und das zudem innerhalb der x86-64-Befehlssatzarchitektur in einer einheitlichen, standardisierten Umgebung, was zweifellos ein großer Vorteil sein wird.