Google und OpenAI liefern sich einen erbitterten Kampf auf dem Gebiet der generativen künstlichen Intelligenz. Normalerweise ist der Suchmaschinen-Gigant im Nachteil, und wir können nun berichten, dass er auf eine frühere Innovation seiner Konkurrenten reagiert. Aber er versucht, mit dem gerade vorgestellten Modell Gemini 2.0 Flash Thinking ganz gut mitzuhalten.
Einer der führenden Köpfe von OpenAI sprach kürzlich über die Tatsache, dass die kontinuierliche Steigerung der Rechenleistung immer weniger eine Lösung für die Entwicklung großer Sprachmodelle und KI darstellt. Es muss ein größerer Schwerpunkt auf radikal neue Ansätze gelegt werden, wenn große Durchbrüche erzielt werden sollen. Das im September angekündigte o1 ist bereits ein wichtiger Schritt in diese Richtung, und Google hat sich mit dem Flash-Thinking-Modell Gemini 2.0 in diese Richtung bewegt.
Im Fall von o1 hat OpenAI bereits in der Trainingsphase einen ganz anderen Ansatz als bei der Entwicklung der bisherigen GPT-Modelle gewählt, und die größte Stärke dieses Modells war, dass es anders "denkt" als GPT-4o und andere, die hinter ChatGPT stehen. Google hat nun ähnliche Aussagen über Gemini 2.0 Flash Thinking gemacht. Auch diese Innovation wird zeigen können, was sie wirklich kann, wenn man ihr wirklich komplexe Aufgaben stellt. Darauf bezieht sich das Wort "Thinking" im Namen des experimentellen Modells.
Jeff Dean, ein leitender Forscher bei DeepMind, sprach über die neue Entwicklung. Ihm zufolge wurde Gemini 2.0 Flash Thinking entwickelt, "um zu trainieren, wie man seine Gedanken nutzt, um überzeugende Argumente zu finden". Außerdem ist es schnell, denn es handelt sich im Grunde immer noch um das Gemini 2.0 Flash-Modell, das während der Entwicklung auf Geschwindigkeit und Effizienz optimiert wurde. Mit dem neuen experimentellen Modell wird die generative KI in der Lage sein, relevante und genaue Antworten auf recht komplexe Fragen zu geben.
Die Vorzüge von Gemini 2.0 Flash Thinking sollen unter anderem darin liegen, dass es seine Antwort auf verschiedene Probleme in mehreren Schritten im Hintergrund "durchdenkt", bevor es zu einer Lösung kommt. Er erklärte Dean, dass KI nicht unbedingt genau so denken kann wie ein Mensch. Sie kann sich die Probleme im Detail ansehen, und für jedes kleine Detail geht sie mehrere mögliche Ergebnisse durch und fasst sie dann zu der Antwort zusammen, die sie für die beste hält. Dies ist zwar eine komplexe Aufgabe, aber da das Grundmodell schnell und relativ kompakt ist, kann sie trotz der Komplexität ein angemessenes Tempo halten.
Wir haben auch gelernt, dass Gemini 2.0 Flash Thinking multimodal arbeiten kann: Das experimentelle Sprachmodell kann neben einem textuellen Format auch visuelle Daten eingeben. Es kann zum Beispiel Graphen und Diagramme verarbeiten. Dadurch kann es mehr Informationen liefern, genauere Antworten geben und während der Verarbeitung auch über die visuellen Daten "nachdenken". Logan Kilpatrick, Produktverantwortlicher bei Google, sagte, dass Gemini 2.0 Flash Thinking der erste Schritt in Richtung einer wirklich denkenden KI ist, was definitiv eine große Sache ist.
Mit Gemini 2.0 schließt Google dieses Jahr mit mehreren wichtigen Ankündigungen ab, aber das nächste Jahr wird eher eine Entfaltung dieses Modells sein, basierend auf der Tatsache, dass es im Moment noch in Pilotversionen ist und nur Gemini 2.0 Flash in Arbeit ist. Es wird auf jeden Fall interessant sein zu sehen, wozu die größeren Versionen fähig sein werden.