Kategorien

GOOGLE KÜNDIGT NEUES GEMINI-MODELL AN, DAS JETZT DEN BROWSER UND ANDERE ANWENDUNGEN VERWALTET

Gemini 2.5 Computer Use wurde entwickelt, um den Nutzern neue Möglichkeiten in der Arbeitsweise von KI-Agenten zu eröffnen und die KI-Nutzererfahrung zu verbessern.
DemonDani
DemonDani
Google kündigt neues Gemini-Modell an, das jetzt den Browser und andere Anwendungen verwaltet

In den letzten Tagen hat OpenAI mehrere interessante neue Funktionen für ChatGPT angekündigt, und Google wollte nicht tatenlos zusehen. Der Suchgigant hat sich das Gemini 2.5 Computer Use Modell ausgedacht, das Fortschritte an der Front der künstlichen Intelligenz Agenten und Agenten bringt.

Der neue Zusatz basiert auf dem großen Sprachmodell Gemini 2.5 Pro, der besten derzeit verfügbaren Lösung von Google. Der Schwerpunkt liegt dabei auf visuellen Interpretations- und Argumentationsfähigkeiten. Mit dieser Erweiterung kann der KI-Agent mit grafischen Benutzeroberflächen interagieren, um Anwendungen zum Laufen zu bringen. Im Moment spricht Google vor allem über die Browserverwaltung, hat aber deutlich gemacht, dass es dabei nicht bleibt.

Das Gemini 2.5 Computer Use Modell kann Aufgaben mit einer geringeren Latenzzeit als andere KI-Agenten ausführen, so die Messungen und Tests des Unternehmens. In mehreren Tests hat es hervorragende Ergebnisse bei der Handhabung von Web- und Mobilumgebungen erzielt. Technisch gesehen bedeutet dies, dass es sich schneller durch Webseiten und Apps klicken, Textfelder schneller laden usw. kann. Das Unternehmen hat hart daran gearbeitet, das Modell in dieser Hinsicht richtig hinzubekommen.

Galerie öffnen

Google wies darauf hin, dass die Agenten der künstlichen Intelligenz mit den richtigen APIs Aufgaben sehr schnell lösen können, aber das Unternehmen ist sich auch darüber im Klaren, dass es nicht für jeden Dienst eine vollwertige API geben wird. Daher ist die Fähigkeit, mit einer traditionellen grafischen Benutzeroberfläche umzugehen, für Gemini 2.5 Computer Use sehr wichtig. Mit einer Programmverwaltung auf Schnittstellenebene können sich schnell neue Möglichkeiten für eine KI-basierte Aufgabenautomatisierung eröffnen.

Galerie öffnen

Ein Modell für die Programmverwaltung befindet sich noch in der Entwicklung, und Google weist ausdrücklich darauf hin, dass es "noch nicht für die Steuerung auf Betriebssystemebene optimiert" ist. Aber es ist klar, dass das Unternehmen plant, die Zügel über alle oder Windows 11 an Gemini zu übergeben.

Derzeit kann die künstliche Intelligenz 13 Operationen ausführen. Sie kann einen Browser öffnen, durch Seiten vor- und zurücknavigieren, suchen, URLs öffnen, scrollen, Dropdown-Menüs verwalten, Dateien und Text greifen und ziehen und verfügt über eine 5-Sekunden-Wartefunktion, wenn sie für einen Moment "pausieren" muss, um Animationen laufen zu lassen. Das Modell Gemini 2.5 Computer Use kann Bilder und Text mit einer Grenze von 128.000 Token verarbeiten, aber die Ausgabe ist auf 64.000 Token begrenzt.

Obwohl der ChatGPT-Agent und das von Anthropic entwickelte Computer-Nutzungs-Tool beide dem Gemini 2.5 Computer-Nutzungs-Modell unterlegen sind, ist anzumerken, dass sie bereits das Licht der Welt erblickt haben. Google möchte aus einem Nachteil einen Vorteil machen, aber die Konkurrenten haben dazu vielleicht etwas zu sagen. Es wird interessant sein zu sehen, welches Unternehmen zuerst einen weithin verfügbaren KI-Agenten haben wird, der wirklich als fertiges Produkt betrachtet werden kann.

Für den Newsletter anmelden
Mit meiner Registrierung akzeptiere ich die Nutzungsbedingungen und die Datenschutzerklärung.

Wir empfehlen Ihnen gerne

    Tests

      Diesbezügliche Artikel

      Zurück zum Seitenanfang