Apple hat in einem für das Unternehmen ungewöhnlichen Schritt die für den auf der WWDC 2024 angekündigten Apple Intelligence Service verwendete Hardware enthüllt und ein detailliertes Forschungsdokument zur Verfügung gestellt, das eine Fülle von Details offenbart. Trotz der Tatsache, dass das HPC- und KI-Segment mittlerweile von Nvidia-Produkten dominiert wird, hat sich das Unternehmen nicht für A100- oder H100-KI-Beschleuniger entschieden, um das große Sprachmodell zu trainieren, sondern hat sich stattdessen auf Googles eigene Lösungen, die TPU-Chips der vierten und fünften Generation, verlassen, die im Wesentlichen AFM (Apple Foundation Models), die Grundlage von Apple Intelligence, bilden.
Für das Training der KI-Modelle wurden Google TPU v4- und Google TPU v5-Chips verwendet. Hochwertige lizenzierte Datensätze, Applebot-Webcrawler-Daten, ausgewählter Code, mathematische Informationen und öffentliche Datensätze wurden für die Deduktion verwendet, um die Fähigkeiten der Modelle zu erweitern.
Das AFM-Server-Modell, das als Apples größtes großes Sprachmodell (LLM) gilt, wurde mit Hilfe eines Clusters aus 8192 TPUv4-Chips erstellt, die in acht Slices mit jeweils 1024 TPUv4-Chips unterteilt und durch ein Rechenzentrumsnetzwerk (DCN) verbunden sind. Der AFM-Server, der nur und ausschließlich online verfügbar sein wird, besteht aus 6,4 Milliarden Parametern und wurde mit insgesamt 7,4 Billionen Token trainiert - der Anzahl der vom System verarbeiteten Token. Das Training wurde in drei Stufen durchgeführt, wobei in der ersten Stufe 6,3 Billionen Token verarbeitet wurden, gefolgt von 1 Billion und dann weiteren 100 Milliarden Token.
Das AFM-on-Device-Modell auf Apple-Geräten wurde auf einer anderen Hardware aufgebaut, nämlich auf dem TPU v5-Chip von Google, von dem 2048 Stück als ein einziger Chip verfügbar waren. Das AFM-on-device LLM besteht nicht mehr aus 6,4 Milliarden Parametern, sondern nur noch aus 3 Milliarden, die im Wesentlichen aus dem Servermodell destilliert wurden, aber es sollte immer noch leistungsstark genug sein.
Natürlich wurden die großen Sprachmodelle auch einigen Tests unterzogen, die zeigen, dass sowohl das AFM-Server- als auch das AFM-on-Device-LLM in den Bereichen "Instruction Following", "Tool Use" und "Writing" gut abschneiden, was darauf hindeutet, dass Apples große Sprachmodelle starke Konkurrenten im KI-Segment sein könnten, wo sie ein wenig zu spät kommen werden.
Da der Hersteller über eine riesige Gerätebasis verfügt, von denen die meisten mit Apple Intelligence kompatibel sein werden, könnte die Einführung dieser Innovation die Art und Weise verändern, wie Nutzer mit ihren Geräten interagieren, insbesondere bei alltäglichen Aufgaben. Apple Intelligence befindet sich noch im Feinschliff, ein Prozess, der von entscheidender Bedeutung ist, da das Endergebnis ausreichend robust und zuverlässig sein muss, um das Leben von Millionen von Geräten positiv zu beeinflussen und zuverlässig zu funktionieren.
Weitere Einzelheiten über die Forschung finden Sie in diesem Dokument. Die Veröffentlichung der Beschreibung ist eine Überraschung, da wir diese Art von Klarheit bei Apple nicht gewohnt sind, aber es scheint, dass das KI-Fieber in diesem Fall zu einer Änderung der Praxis geführt hat. Das ist gut, es ist immer ein Vergnügen, einen Blick hinter die Kulissen zu werfen. Hoffen wir, dass der Betrieb von Apple Intelligence ebenso positiv sein wird, wenn es endlich einsatzbereit ist.