Das AMD-Team hat kürzlich eine besondere neue Funktion vorgestellt, die nichts anderes ist als ein kleines Sprachmodell, das speziell für Geschäftszwecke entwickelt wurde. Dieses kleine Sprachmodell oder SLM (Small Language Model) ist ein Bereich, in dem Nvidia nicht wirklich vertreten ist, zumindest nicht an vorderster Front, so dass das AMD-Team denkt, dass es sich lohnt, es zu entwickeln und Marktanteile zu gewinnen.
Die neue Entwicklung heißt AMD-135M, ist Teil der Llama-Familie und wurde speziell für den Einsatz in einer privaten Geschäftsumgebung entwickelt, um die aktuellen Geschäftsanforderungen zu maximieren. Das Unternehmen bewegt sich eindeutig in die Richtung, die domänenspezifischen Bedürfnisse einzelner Kunden innerhalb eines Rahmens von vortrainierten KI-Modellen, die natürlich mit AMD-Hardware gebaut werden könnten, effizient zu erfüllen.
Diese neuen KI-Modelle sind recht schnell, da sie mit spekulativer Dekodierung arbeiten, d. h. sie gehen von einem kleinen Modell aus, das als eine Art Skizzenmodell betrachtet werden kann, und erzeugen dann in einem einzigen Schritt mehrere "Kandidaten-Token". Die resultierenden Token werden dann an ein größeres, genaueres Modell, das "Zielmodell", weitergegeben, das sie dann überprüft und gegebenenfalls korrigiert. Mit dieser Methode können mehrere Token auf einmal generiert werden, was sicherlich einen Geschwindigkeitsvorteil darstellt, aber auch zu einem höheren Verbrauch aufgrund des großen Datenverkehrs führt.
Für diese spezielle Methode wurden zwei SLMs entwickelt, eines mit der Bezeichnung AMD-Llama-135M und das andere mit der Bezeichnung AMD-Llama-135M-code. Beide SLMs sind darauf ausgelegt, bestimmte Aufgaben zu beschleunigen, indem sie die Leistung von Deduktionsaufgaben erhöhen und sich dabei auf die bereits erwähnte spekulative Dekodierungstechnologie stützen, was ein logischer Schritt für KI-Dienste ist, die auf kleinen Sprachmodellen aufbauen.
Das Basismodell selbst, AMD-Llama-135M, wurde anhand eines Datensatzes von 670 Milliarden Token erstellt. Die Trainingsübungen wurden auf AMD Instinct MI250-basierten 8-Wege-Systemen durchgeführt und dauerten 6 Tage. Gleichzeitig wurde auch das AMD-Llama-135M-Code-Modell fertiggestellt, wobei weitere 20 Milliarden Token für die Feinabstimmung verwendet wurden und der Schwerpunkt auf der Programmierung lag. Das AMD-Team ist überzeugt, dass weitere Optimierungen zu einer noch besseren Leistung führen werden.
An der Software-Front wird das Repertoire von AMD dank der kürzlich angekündigten Übernahme von Silo AI bald erheblich gestärkt werden, auch wenn der Deal noch nicht abgeschlossen ist und die behördlichen Genehmigungen noch nicht vorliegen, so dass die Wahrscheinlichkeit groß ist, dass Silo AI noch nicht in die aktuelle Entwicklung einbezogen wurde.