Google entwickelt seit langem künstliche Intelligenz, große Sprachmodelle und andere ähnliche Tools. Das Unternehmen verfügt inzwischen über eine breite Palette dieser Werkzeuge. Mit dem Gemma-Modell erreicht es jetzt die nächste Stufe.
Gemma wurde von Google Ende Februar letzten Jahres angekündigt. Es handelt sich um ein weitgehend offenes, kostenloses und sehr "leichtgewichtiges" Modell, d. h. es kann in einer bescheidenen Umgebung ausgeführt werden. Das Wichtigste an Gemma ist, dass der Hintergrund derselbe ist wie bei Gemini, sie haben die gleichen Grundlagen, aber es ist jetzt offen und leicht zugänglich und für bestimmte Zwecke einsetzbar. Gemma 2 wurde Ende Juni letzten Jahres veröffentlicht und versprach, sich problemlos in andere KI-Geräte zu integrieren, und es hieß, dass es nur eine einzige Nvidia H100 Tensor Core GPU benötige.
In Fortführung der früheren Entwicklungen wurde das Modell Gemma 3 geboren, das sich weiterhin auf Offenheit konzentriert und die Entwicklung von KI-basierten Technologien zugänglicher macht. Google sieht diese Entwicklung als etwas, an dem viele Menschen interessiert sind, so dass es sich auf jeden Fall lohnt, die Mühe zu investieren. Berichten zufolge wurden diese Modelle inzwischen über 100 Millionen Mal heruntergeladen und 60.000 verschiedene Gemma-Varianten erstellt.
Google hat einen Community-Bereich namens Gemmaverse eingerichtet, in dem sich Interessierte inspirieren lassen können, und weitere Entwicklungen können nun auf der Gemma-3-Plattform aufgebaut werden.
Dies ist das erste Gemma-Modell des Unternehmens, das sich an den Gemini 2.0-Modellen orientiert. Und bei seiner Entwicklung hat sich das Team an die frühere Vision gehalten. Es handelt sich um eine kleine, leicht zu implementierende, mobile Lösung, die auch in einer bescheidenen Hardwareumgebung flink läuft. Besonders interessant an Gemma 3 ist, dass es mit einer breiteren Angebotspalette als je zuvor auf den Markt kommt, wobei vier verschiedene Größen zur Auswahl stehen.
Google bietet Gemma 3-Varianten mit 1 Milliarde, 4 Milliarden, 12 Milliarden und 27 Milliarden Parametern an. Diese wurden von dem Unternehmen auf der Grundlage früherer Erfahrungen entwickelt und anhand von Rückmeldungen optimiert.
Google behauptet, dass seine Messungen zeigen, dass Gemma 3 eine unvergleichliche Leistung für seine Größe bietet. Es soll in der Lage sein, das Llama-405B-Modell, DeepSeek-V3 sowie das o3-mini-Schlussfolgermodell von OpenAI zu übertreffen. Natürlich gibt es Modelle, die es übertreffen können, wie z. B. das fortschrittlichere R1-Schlussfolgermodell von DeepSeek. Das MI-Gerät schneidet beim LMArena-Test hervorragend ab, wobei es nur auf eine einzige Nvidia GPU oder TPU zugreifen muss.
Mit über 35 Sprachen ist Gemma 3 sofort einsatzbereit, und mit Training kennt es über 140 Sprachen im Voraus. Das Modell ist multimodal und kann auch Videos analysieren, so dass Entwickler mehr aus ihm herausholen können. Gemma 3 verfügt auch über Argumentationsfähigkeiten und verwendet 128.000 Token-Kontextfenster, was für allgemeine Unterhaltungen ausreichen sollte. Natürlich bleibt es weit hinter Gemini zurück, was nicht überrascht, da Gemini der Marktführer in diesem Bereich ist - es arbeitet bereits mit Millionen von Kontextfenstern.
Für interessierte Entwickler hat Google ein umfangreiches Dokument zur Verfügung gestellt, das auf 26 Seiten den technischen Hintergrund des neuen Gemma beschreibt. Zusätzlich zu Gemma 3 hat das Unternehmen auch ShieldGemma 2 entwickelt, das eine sehr interessante Entwicklung darstellt. Dabei handelt es sich um eine KI-Sicherheitsprüfung mit 4 Milliarden Parametern zur Analyse des Bildinhalts, die effizienter sein soll als die derzeitigen Bildfilter und sich bei der Erkennung von anstößigem, gefährlichem Bildmaterial als besser erweisen dürfte.