xAI steht eindeutig an der Spitze der Entwickler von Tools für Sprachmodellierung und generative künstliche Intelligenz und baut seine Position nun mit Grok 4.1 weiter aus. Nach Angaben des Unternehmens wurden in der realen Anwendungsumgebung erhebliche Fortschritte erzielt.
Grok 4.1 ist zu einem der leistungsstärksten Sprachmodelle geworden, schneller als je zuvor und weniger "halluzinatorisch". Das Feedback der Tester zeigt, dass das neue Tool in der Mehrheit der Fälle (64,8 Prozent) die besten Antworten liefert. Es bleibt zu hoffen, dass die neue Version von Grok keine extremen Tendenzen aufweist, während sie weiterhin ohne einen großen Inhaltsfilter verwendet werden kann.
"Unser Modell 4.1 verfügt über außergewöhnliche Fähigkeiten in kreativen, emotionalen und kollaborativen Interaktionen", so xAI, "es ist sensibler für subtile Nuancen von Absichten, einladender im Gespräch und hat eine kohärentere Persönlichkeit, während es den scharfen Verstand und die Zuverlässigkeit seiner Vorgänger vollständig beibehält."
Die Forscher von xAI erreichten die gewünschte Verbesserung, indem sie die bisherige Unterrichtstechnik optimierten. Das Unternehmen hat Grok 4.1 bereits seit Anfang November einer Teilgruppe von Nutzern zur Verfügung gestellt, und die Rückmeldungen zeigten deutlich, dass die Reaktionen der Tester auf das neue Modell besser sind. Zwei Versionen des Modells sind in Produktion: Grok 4.1 ist das Basismodell und es gibt eine auf das Denken fokussierte Option Grok 4.1 Thinking für schwierigere, komplexe Aufgaben.
Diese Verbesserungen haben die emotionale Intelligenz von Grok auf ein neues Niveau gehoben. Diese wird mit dem EQ-Bench gemessen, bei dem Grok 4 1206 Punkte erreichte, während Grok 4.1 auf 1585-1586 Punkte kam. Das Modell hat sich auch bei kreativen Textverarbeitungsaufgaben verbessert, wie der Creative Writing v3 Test des Unternehmens zeigt.
Eines der Hauptziele der Forschung war es, die Neigung zu Halluzinationen zu verringern, und die eigenen Messungen des Unternehmens zeigen, dass die Halluzinationsrate der Grok 4 von 12,1 % auf 4,22 % gesenkt werden konnte, was hervorragend klingt. Wir haben auch erfahren, dass das neue Modell einen FActScore von 2,97 % erreicht hat, was ebenfalls eine enorme Verbesserung gegenüber dem vorherigen Wert von 9,89 % darstellt. Der FActScore ist ein Maß für die Faktizität der Antworten und versucht, die Modelle zum "Lügen" zu bringen.
Das Modell Grok 4.1 Thinking belegte den zweiten Platz im LMArena-Ranking, wurde aber entthront, weil das Gemini 3 Pro, das ebenfalls kürzlich von Google auf den Markt gebracht wurde, um ein Haar besser abschnitt. Das neue Gemini erreichte 1501 Punkte, verglichen mit 1484 Punkten für die beste Variante des Grok 4.1.
Grok 4.1 macht sich sofort an die Arbeit hinter dem Grok-Chatbot, so dass die Nutzer bereits die Veränderung in den Antworten der generativen KI spüren können. Sowohl im Web als auch auf den beiden wichtigsten mobilen Plattformen hat sich die neue Grok an die Spitze gesetzt, wobei keine der beiden Plattformen durch xAI benachteiligt wird, was erfreulich ist.
Er arbeitet im "Auto"-Modus, was bedeutet, dass der Chatbot selbst entscheiden kann, welches Modell für die schnellsten/besten Antworten benötigt wird. Die schwierigeren Fragen werden von Grok 4.1 Thinking analysiert, so dass Sie länger auf die Ergebnisse warten müssen, während Grok 4.1 bei einfachen Gesprächen schnelle Antworten liefert.