Da die neue Generation von KI-Beschleunigern mit einem immer höheren Stromverbrauch arbeitet, das Design komplexer und die rohe Rechenleistung höher wird, wird die effiziente Ableitung der erzeugten Wärme immer kritischer, da ein relativ großes Wärmeerzeugungspotenzial in einem relativ kleinen Bereich konzentriert ist, was es schwierig macht, die Wärme schnell und effizient zu erfassen und abzuleiten.
Die Kühlung ist von entscheidender Bedeutung, da eine unzureichende Kühlleistung dazu führt, dass der Chip einen Drosselungsprozess in Gang setzt, seine Taktfrequenz verringert und sich dadurch selbst wieder abkühlt, was sich negativ auf die Leistung auswirkt und es dem Chip nicht ermöglicht, sein volles Potenzial auszuschöpfen, was ein Verlust für das Rechenzentrum ist und sich sogar negativ auf die Lebenserwartung des Chips auswirkt, wenn er nicht richtig gekühlt ist.
Neben den KI-Beschleunigern explodiert auch der TDP-Rahmen von Serverprozessoren, so dass die Wärmeentwicklung auch in diesem Bereich ein Problem darstellt, und die Branchenakteure suchen natürlich bereits nach geeigneten Lösungen, wie etwa Immersionskühlung. Microsofts Team scheint einen anderen Ansatz zu verfolgen und versucht, die Wärmeentwicklung zu stoppen, indem es das Kühlmittel so nah wie möglich an den Bereich heranführt, in dem die Wärme entsteht: den Siliziumwafer selbst.
Das Unternehmen kündigte einen Durchbruch bei der Chipkühlung an, indem es eine neue Technologie entwickelte, die die Herausforderungen der hohen Wärmeentwicklung effektiver als je zuvor angeht. Bei der mikrofluidischen Kühlung werden spezielle Mikrokanäle, die manchmal dünner als ein menschliches Haar sind, auf die Rückseite des Siliziumwafers geätzt, auf dem ein Chip basiert, um die Transistorgruppen, in denen die meiste Wärme erzeugt wird, direkt mit Flüssigkeit zu kühlen.
Um die Effizienz weiter zu steigern, nutzen sie auch das Potenzial der künstlichen Intelligenz (KI), um eine thermische Karte des Chips zu erstellen, mit der die Mikrokanäle um strategisch wichtige Bereiche herum angeordnet werden können, was die Wärmeabfuhr weiter beschleunigt und die Kühlung noch effizienter macht. Die Mikrokanäle, in denen das Kühlmittel zirkuliert, sind nicht gerade oder folgen einem bestimmten Muster, sondern sind verzweigt und von Mustern inspiriert, die man in der Natur beobachten kann, wie z. B. die Adern an den Blattfäden.
Während bei der herkömmlichen Flüssigkeitskühlung der Chip indirekt über einen Flüssigkeitskühlblock gekühlt wird, dessen Basis in Kontakt mit der Chipoberfläche steht, sei es eine spezielle Chipoberfläche oder ein integrierter Wärmespreizer (IHS), fließt die Kühlflüssigkeit bei der mikrofluidischen Kühlung durch Kanäle auf der Rückseite des Siliziumwafers, wodurch sie so nah wie möglich an den Transistoren auf dem Chip platziert wird, was zu einer höheren Kühlleistung beiträgt.
Microsoft-interne Tests zeigen, dass die neue Methode bis zu dreimal effizienter bei der Wärmeabfuhr ist als herkömmliche Flüssigkeitskühlsysteme und die Spitzentemperatur an Bord des Grafikprozessors um etwa zwei Drittel reduziert - eine beeindruckende Leistung. Sobald die Technologie verfeinert und optimiert ist, wird es laut Microsoft möglich sein, dank der effizienteren Kühlung noch mehr Leistung aus der gleichen Hardware herauszuholen und gleichzeitig den Kühlungsverbrauch zu senken, was für die Betreiber von Rechenzentren ein wichtiger Aspekt ist. Eine effizientere Kühlung bedeutet, dass die GPUs länger mit höheren Taktraten arbeiten können, was natürlich eine höhere Leistung bedeutet. Wenn man einen großen Supercomputer-Cluster mit Tausenden von GPUs betrachtet, die gemeinsam arbeiten, können selbst ein paar Megahertz mehr schon einen enormen Leistungsgewinn bedeuten.
Natürlich ist es aufgrund der Art der Kühlung von größter Bedeutung, dass die Chips ausreichend abgedichtet sind, das gesamte Kühlsystem zuverlässig und leckagefrei ist und die strukturelle Stabilität durch die Mikrokanäle auf der Rückseite des Siliziumchips nicht beeinträchtigt wird. Das gesamte System muss als kooperative Einheit konzipiert und gebaut werden, um das Potenzial der mikrofluidischen Kühlung zu maximieren, ohne Schwachstellen an Bord.
Die Microsoft-Ingenieure arbeiten noch an der endgültigen Gestaltung der Technologie und prüfen eine Reihe von Optionen, um das bestmögliche Design zu erreichen. Die neue Kühlmethode soll in erster Linie in selbst entwickelte Chips integriert werden, aber auch in Zusammenarbeit mit anderen Herstellern zum Einsatz kommen.