Die Unternehmen versuchen, das Beste aus den KI-Chatbots herauszuholen, und so gibt es bereits Entwicklungen, die weit über die Fähigkeiten eines einfachen Chatbots hinausgehen. Wir sehen immer mehr Möglichkeiten, wie Systeme beginnen, die Verwaltung von Maschinen von den Nutzern zu übernehmen, damit sie ihnen noch mehr helfen können.
Zunächst haben wir bei Anthropic gesehen, dass die Computernutzung eine Funktion ankündigt, bei der eine ganze Reihe von Funktionen durch künstliche Intelligenz auf einem bestimmten Computer ausgeführt werden können. Sie verwaltet den PC ohne Eingriff von außen. Kurz darauf folgte Google mit dem Projekt Jarvis , das sich ständig weiterentwickelt und immer mehr Möglichkeiten bieten kann. Von nun an versucht auch OpenAI etwas Ähnliches, obwohl Operator eingeschränkter ist als zuvor.
Im Wesentlichen ist Operator ein KI-Agent, mit dem man nicht nur chatten kann, sondern der auch verschiedene Aufgaben auf Computern ausführt. Er kann das Bild scrollen, Textfelder auswählen und ohne Hindernisse in sie schreiben. "Er geht ins Internet und führt die Aktionen aus, die der Benutzer von ihm verlangt", so das OpenAI-Team über Operator.
Die neue Funktion ähnelt ein wenig der Entwicklung von Google, aber anstatt den Chrome-Browser zu verwenden, um auf Funktionen zuzugreifen und Seiten zu verwalten, verwendet die KI einen alternativen, selbst entwickelten Browser. OpenAI hat eine Umgebung zusammengestellt, die sie auf ihre spezifischen Bedürfnisse zuschneiden kann, und in dieser Umgebung kann Operator effizient und routinemäßig arbeiten.
Das einzigartige Modell des Computer nutzenden Agenten ist eine Kombination aus mehreren verschiedenen Werkzeugen. Es umfasst das multimodale Modell GPT-4o, das sich um die visuelle Wahrnehmung kümmert, so dass die KI die Schnittstelle der Webseiten und die visuellen Elemente, die darauf erscheinen, sehen kann. Sie ist in der Lage, nach einem individuellen Lernprozess mit der grafischen Oberfläche zu interagieren. OpenAI betonte, dass es nicht notwendig ist, eine benutzerdefinierte API auf dem Gerät zu installieren, der Dienst greift nicht tiefer in die Maschine ein und kann seine Funktion erfüllen.
Der Operator ist im Moment noch nicht perfekt und wird es sicher auch noch einige Zeit nicht sein, und es wird viel Zeit benötigt, ihn zu entwickeln. Wenn er ein Problem hat, kann er sogar den Benutzer bitten, ihm zu helfen. Darüber hinaus gibt es Situationen, in denen ein Eingreifen des Benutzers unbedingt erforderlich ist, z. B. bei Schnittstellen, an denen sensible persönliche Daten wie Anmeldeinformationen eingegeben werden müssen.
Grundsätzlich ist es nicht möglich, den Operator für missbräuchliches oder illegales Browsen in Inhalten zu verwenden, und entsprechende Anfragen werden abgelehnt. Natürlich wird es garantiert diejenigen geben, die versuchen werden, den KI-Helfer zu einem Kriminellen zu machen, aber die Vision des Unternehmens ist, dass er als effektiver Kollaborateur angesehen wird. OpenAI strebt auch die Zusammenarbeit mit großen Unternehmen an, um seine Fähigkeiten zu erweitern, und das Toolkit des Operators wird weiter wachsen.
Auch wenn der von OpenAI entwickelte KI-Agent sicherlich nicht so spektakulär ist wie der von Anthropic entwickelte Computer, gibt es doch einen sehr wichtigen Unterschied. Operator ist jetzt für die Allgemeinheit verfügbar, wenn man bereit ist, eine Menge Geld dafür zu bezahlen. Das ChatGPT Pro-Abonnement, das mit einer monatlichen Nettogebühr von 200 $ verbunden ist, ist jetzt Teil des neuen Produkts in den USA.
Die Entwicklung der künstlichen Intelligenz in diese Richtung ist sehr spannend für diejenigen, die aus gesundheitlichen Gründen den PC nicht auf die klassische Weise nutzen können. Wenn KI wirklich in der Lage ist, alle Arten von Aufgaben auf Computern zu erledigen, könnte sie eine große Hilfe für Menschen mit Behinderungen sein.