OpenAI kündigte über 12 Tage hinweg verschiedene Entwicklungen an und schloss mit der Ankündigung und Vorschau des o3-Modells am letzten Tag. Sam Altman hat in den letzten Wochen gesagt, dass sie sich nicht so schnell bewegen können, wie die Leute sich das vorstellen, und dass sie in diesem Jahr kein MI-Modell mit großer Wirkung vorstellen werden.
Der o3 ist eine hochkarätige Innovation, die erst im nächsten Jahr zum Einsatz kommen wird, aber wir erhalten bereits einige Messungen. OpenAI hat es geschafft, das Interesse der Menschen zu wecken, und das ist natürlich kein Wunder, denn sie haben begonnen, über die AGI-Ebene zu sprechen - obwohl niemand genau weiß, was AGI ist.
Im September stellte OpenAI das Modell o1 vor, das auf einer völlig neuen Grundlage trainiert wurde, und als Ergebnis wurde ein großartiges Modell für logisches Denken und Problemlösung geboren. Das o1 ist in der Lage, komplexe Probleme Schritt für Schritt zu lösen. Es arbeitet ein bisschen wie das menschliche Gehirn beim Durchdenken von Aufgaben. Nach dem o1 hat das Unternehmen nun den o3 entwickelt, zwei Versionen sind in der Entwicklung, und der o3-mini wird neben dem nativen o3 erscheinen.
Der o3 ist immer noch ein etwas langsameres Modell, da er Aufgaben auf komplexere Weise löst, aber er ist auch zuverlässiger und genauer, wie seine Ergebnisse in Tests zeigen. In fast allen Bereichen hat OpenAI bei vorläufigen Messungen neue Rekorde aufgestellt und den führenden Experten von OpenAI in einem der schwierigsten Programmiertests geschlagen, eine Leistung, die noch kein Modell erreicht hat. Dieser Test ist SWE-bench Verified, und o3 schnitt in diesem Benchmark um 22,8 % besser ab als o1.
Er löste einen der schwierigsten Mathe-Tests, AIME 2024, indem er nur eine Frage falsch beantwortete. Beim GPQA Diamond, einem Wissenschaftstest mit sehr hohem Schwierigkeitsgrad, erzielte er 87,7 Prozent. Und seinen größten Erfolg errang er beim Frontier-Mathe-Test, der von EpochAI zusammengestellt wurde, obwohl er nur 25,2 % der Punkte erreichte. Warum ist das so gut? Nun, weil es sich dabei um den wohl schwierigsten Mathe-Test handelt, den es derzeit gibt, und kein Modell hat es je geschafft, über 2 % zu kommen. So viel zu der anderen "Denkweise".
An dieser Stelle sei darauf hingewiesen, dass eine weitere Innovation von o3 darin besteht, dass der Benutzer die Rechenzeit selbst bestimmen kann. Wie bereits erwähnt, ist dieses Modell langsamer als die bisherigen, da es anders arbeitet, anders "denkt" und anhand der Denkzeit festlegen kann, wie stark es sich selbst optimieren soll. Es wird dafür niedrige, mittlere und hohe Optionen geben, und je mehr Zeit man bekommt, desto besser wird die Genauigkeit, aber desto mehr Zeit und Rechenleistung wird man im Gegenzug verbrauchen.
Es sei darauf hingewiesen, dass die neue Richtung von OpenAI vorerst noch gefährlicher ist als die traditionellen Lösungen. Es ist in Mode, sich vor KI zu fürchten, aber viele Experten haben sich zu den mit o1 verbundenen Risiken geäußert, die größer sind als die von "nicht-experimentellen" Modellen. Das liegt daran, dass die KI nach den bisherigen Erhebungen durchsetzungsfähiger ist und die Menschen eher davon überzeugen kann, dass sie richtig ist, auch wenn sie falsch liegt. Dies ist ein weiterer Grund, warum die Entwicklung dieses Modells noch weiter vorangetrieben werden muss.
Eine interessante Neuigkeit ist schließlich, dass der Name o2 von OpenAI aus rechtlichen Gründen geändert wurde. Im September erklärte das Unternehmen auch, dass es eine neue, bessere Namenskonvention verwenden wolle, die in der zweiten Runde ein wenig blutete. Wie Sie wissen, wurde das neue Modell unmittelbar nach o1 zu o3, weil man sich nicht mit dem Anbieter O2 rechtlich anlegen wollte.