Kategorien

ANTHROPIC ENTFESSELT DIE BEEINDRUCKENDE LEISTUNG DES MODELLS MYTHOS

Es ist ein kühner Schritt des Unternehmens, das dieses Modell zuvor als äußerst gefährlich bezeichnet hat, aber er könnte das Kräfteverhältnis auf dem Markt neu ordnen.
DemonDani
DemonDani
Anthropic entfesselt die beeindruckende Leistung des Modells Mythos

Unter den großen Sprachmodellen liefern sich Gemini, ChatGPT und Claude einen ernsthaften Wettstreit um den Spitzenplatz bei den Nutzern. Nun hat Anthropic eine teilweise neue Claude-Variante entwickelt, die in den ersten Tests durchweg besser abgeschnitten hat als die Konkurrenz - manchmal sogar mit einem Erdrutschsieg.

Aufbauend auf dem Claude Mythos hat Anthropic nun das Modell Claude Fable entwickelt und ihm bereits die Versionsnummer 5 gegeben. Dies ist ein klares Indiz dafür, dass das Unternehmen nun über dem vorherigen Claude Opus 4.8 steht, und die Tests bestätigen dies.

Zuvor hatte Anthropic betont, dass es sich beim Mythos um ein Modell mit erheblichen Risiken handelt und daher nur eine kleine Elite Zugang zu ihm haben sollte. Das Unternehmen hatte auch eine gesonderte Ankündigung gemacht, als es es der Europäischen Union zur Verfügung stellte. Nichtsdestotrotz können wir nun die Ankunft von Mythos 5 und seinem Gegenstück für Verbraucher, Claude Fable 5, vermelden. Nun, die Entwickler haben Sicherheitsmechanismen eingerichtet, um möglichen Missbrauch zu verhindern.

Galerie öffnen

Bei Claude Fable 5 hat das Unternehmen ausdrücklich betont, dass es sich nicht um ein bescheidenes Modell handelt, was bedeutet, dass es in der Leistung bescheidener ist. Der Fable 5 leistet genau dasselbe wie der Mythos 5, allerdings mit einem "Maulkorb". Ohne diesen Maulkorb würde er bei Missbrauch ein sehr ernstes Cybersicherheitsrisiko darstellen und könnte großen Schaden anrichten. Wir wissen nicht, ob es klug von Anthropic ist, dies so stark zu forcieren, wir hoffen nur, dass alle Sicherheitsmechanismen ihre Aufgabe perfekt erfüllen, denn wir haben keinen Zweifel, dass viele Leute dies testen werden.

"In fast allen KI-Tests erweist sich Claude Fable 5 als Stand der Technik, mit herausragenden Leistungen in der Softwareentwicklung, Wissensarbeit, Bildverarbeitung, wissenschaftlichen Forschung und vielen anderen Bereichen", so das Unternehmen. "Je länger und komplexer die Aufgabe ist, desto größer ist der Vorteil von Fable 5 gegenüber unseren anderen Modellen."

Anthropic hat Fable 5 zahlreichen Tests unterzogen und festgestellt, dass es mit GPT-5.5 und Claude 3.1 Pro nicht mithalten kann - obwohl Googles Verwendung von Gemini 3.5 Flash aktueller gewesen wäre. Humanity's Last Exam, das fast jedes Mal auftauchte, wurde von dem frischen Modell mit 59% durchgeführt, während die Konkurrenten ohne die Hilfe von Tools nicht über 50% kommen konnten. Im OSWorld-Test, der die Benutzerfreundlichkeit des Computers unter Beweis stellt, erreichte er 88 % gegenüber 83,4 % für GPT-5.5 und 78,7 % für Gemini 3.1 Pro.

Galerie öffnen

Claude Fable 5 ist das erste Modell in einer großen Sprache, das im SWE-Bench Pro eine Punktzahl von über 80 % erreicht, während Opus 4.8, das bisher als Benchmark galt, nur knapp unter 70 % liegt. Die größten Herausforderer konkurrieren derweil zwischen 50-60 % miteinander.

Selbst in seinem bescheidensten Modus ist Fable 5 unter FrontierCode schon fast so genau wie das Spitzenmodell Claude Opus 4.8. Das hat natürlich seinen Preis, denn die Arbeit damit wird etwa doppelt so teuer sein.

Galerie öffnen

Das Unternehmen wird auch das Modell Mythos 5 beibehalten, bei dem es sich um eine neuere Version der vorherigen Mythos-Vorschau handelt, die als einsatzbereit gilt. Es wird von Anthropic weiterhin für Cybersicherheitsaufgaben für vorrangige Kunden im Rahmen der Initiative Project Glasswing zur Verfügung gestellt. Dieses Modell ist nicht durch Sicherheitsverfahren eingeschränkt.

Anthropic ist es außerdem gelungen, die Effizienz des Mythos-Modells in der letzten Zeit zu verbessern, so dass es kostengünstiger arbeiten kann. Mythos und Fable werden mit der gleichen Preisgestaltung arbeiten, d.h. die Verarbeitung von 1 Million Token kostet 10 Dollar und die Produktion der gleichen Menge an Inhalten 50 Dollar. Die Mythos-Vorschau war doppelt so teuer.

Für den Newsletter anmelden
Mit meiner Registrierung akzeptiere ich die Nutzungsbedingungen und die Datenschutzerklärung.

Wir empfehlen Ihnen gerne

    Tests

      Diesbezügliche Artikel

      Zurück zum Seitenanfang