Meta hat das große Sprachmodell Llama Anfang 2023 vorgestellt, und jetzt liegt die dritte Generation dieses Modells auf dem Tisch, was ein großer Schritt nach vorn ist. Llama 3 ist genauer und effizienter als je zuvor, und das Unternehmen spricht weiterhin davon, dass es sich um ein offenes Modell handelt.
In letzter Zeit haben alle großen Technologieunternehmen LLM-Systeme entwickelt, die in mehreren Größen erhältlich sind. Das Llama 3 bildet da keine Ausnahme, was natürlich nicht verwunderlich ist, wenn man bedenkt, dass es das Llama 2 bereits in mehreren Versionen gab. Der Neuling wurde in Versionen mit 8 und 70 Milliarden Parametern eingesetzt. Das Vorgängermodell Llama 2 war in Versionen mit 7 und 70 Milliarden Parametern erhältlich, aber das neue Modell wird in der gleichen Größe viel mehr leisten.
Meta arbeitet außerdem an einer wesentlich besseren Variante des Llama-3-Modells als je zuvor, die bis zu 400 Milliarden Parameter umfassen könnte. Dieses Modell befindet sich derzeit in der Trainingsphase.
Meta hat einige interessante Fakten über Llama 3 enthüllt. So erfuhren wir zum Beispiel, dass beim Training 15 Billionen Token an Informationen verwendet wurden, während es bei Llama 2 "nur" 3 Billionen Token waren. Meta hat außerdem eine eigene Trainingsumgebung für die Arbeit eingerichtet, in der 24.000 einzelne GPUs in zwei Clustern zum Einsatz kommen. Llama 3 wird von Meta der Öffentlichkeit über eine Reihe von Cloud-Umgebungen zur Verfügung gestellt.
Das neue Modell wurde speziell entwickelt, um die Zahl der Fälle von Nichtbeantwortung zu verringern. Llama 2 neigte dazu, Anfragen und Fragen abzulehnen, die völlig ungerechtfertigt schienen, und die erste Version war in dieser Hinsicht noch schlimmer. Das Llama-Modell wollte nicht einmal Trennungsempfehlungen geben. Llama 3 wird Anfragen viel besser interpretieren können, um falsche Ablehnungen zu reduzieren. Natürlich haben die Entwickler auch viel Mühe in die Sicherheit gesteckt.
Meta hat sich viel Mühe gegeben, die Ergebnisse von Llama 3 in verschiedenen unabhängigen Tests hervorzuheben. Mit 70 Milliarden Parametern schneidet Llama 3 nach den Messungen des Unternehmens um ein Vielfaches besser ab als die letzte öffentliche Version von Gemini, Gemini Pro 1.5, die derzeit verfügbar ist, sowie Claude 3. In der MMLU-Testreihe wird Gemini um Haaresbreite von Metas Entwicklung geschlagen, während es in der HumanEval-Messung weit überlegen ist und im GSM-8K-Rahmen triumphiert. Bei der GPQA-Messung und dem MATH-Test hingegen ist Gemini der Sieger.
Das kleinere Llama 3 8B hingegen übertraf seine Konkurrenten in all diesen Tests, musste sich aber gegen die von Meta entwickelten Gemma 7B und Mistral 7B behaupten. In dem Bericht von Meta wurde auch ausführlicher darauf hingewiesen, dass z. B. das GPT-4 überhaupt nicht erwähnt wurde, so dass man nicht wissen kann, was das neue großsprachige Llama-Modell im Vergleich dazu leisten kann.
Meta hat auch eine eigene Testsuite für eine Vielzahl von Anwendungen zusammengestellt. Es gibt Kopfschmerzen beim Programmieren, Herausforderungen beim kreativen Schreiben, logisches Denken und Zusammenfassen. Es überrascht nicht, dass das Llama 3 70B in diesem Test alle seine Konkurrenten besiegt hat, sogar das in die Jahre gekommene GPT-3.5 war an dieser Stelle der Sieger.
Das Llama 3 wird auch Verbesserungen aufweisen, die dazu beitragen, dass die Multimodalität besser funktioniert, so dass das System Bilder und andere Datenformate besser verarbeiten kann. Mit den neuen Erweiterungen sind auch längere Kontextfenster zu erwarten. Das neue LLM-System wird auch in der Lage sein, Bilder zu generieren, aber es ist nicht bekannt, was mit Videos geschehen wird. Es ist wahrscheinlich, dass das Meta noch nicht so weit ist.
Mark Zuckerberg sagte bei der Präsentation, dass es diese Modelle nicht sicherer machen würde, wenn man sie komplett schließen würde. Während er versuchte, für Offenheit zu plädieren, sagte er, es sei ungerechtfertigt, darüber zu sprechen, warum ein geschlossenes Modell aus Sicherheitsgründen verwendet werden sollte. Aus diesem Grund wird Meta auch in der kommenden Zeit versuchen, einen offenen Betrieb aufrechtzuerhalten.
Meta sagte auch, dass es zwar viel mehr Daten während des Trainings verwendet hat, aber darauf geachtet hat, sich nur auf öffentliche Daten im Internet zu stützen. Natürlich wurden, wie bei anderen Technologieunternehmen auch, keine Einzelheiten bekannt gegeben. Interessant ist, dass das Unternehmen auch von KI generierte synthetische Informationen für das Training verwendet hat, was sicherlich spannend klingt, aber nicht völlig neu ist. Das Unternehmen wies auch darauf hin, dass keine persönlichen Daten, die über Meta-Dienste verfügbar sind, für das Training verwendet wurden.
Mit Blick auf die Zukunft arbeitet Meta noch immer am Llama 3 400B, wobei einige vorläufige Testergebnisse veröffentlicht wurden, aber die Pläne für die nächste Generation von Modellen sind bereits im Gange. Zuckerberg bestätigte, dass sie bereits über die Entwicklung von Llama 4 und Llama 5 nachdenken. Aber er fügte hinzu, dass es sich um einen Marathon handelt, nicht um ein Sprintrennen.
Llama 3 wurde zunächst über die Dienste von Meta verfügbar gemacht, über die wir bereits ausführlich berichtet haben. Im Laufe der Zeit wird dies auf andere Dienste ausgeweitet werden, wie wir es zum Beispiel bei Llama 2 gesehen haben.