DeepMind ist die wichtigste Abteilung von Google in der KI-Entwicklung. Die Forscher arbeiten an Sprachmodellen und künstlicher Intelligenz in einer Vielzahl von Bereichen. In diesem Fall können wir sehen, dass sie bereits neue Modelle für Roboter entwickelt haben. Dank dieser Modelle wird sich die Robotik viel schneller entwickeln können.
In letzter Zeit hat Google für die meisten seiner KI-Entwicklungen den schicken Namen Gemini verwendet, und auch die wichtigsten Modelle tragen diesen Namen. Es überrascht nicht, dass es auch seine Lösung für Roboter so getauft hat. In diesem Bereich wurden zwei Modelle entwickelt, eines mit dem Namen Gemini Robotics und das andere Gemini Robotics-ER.
Nach Angaben des Unternehmens basiert Gemini Robotics auf dem Modell Gemini 2.0, aber das Unternehmen hat nicht angegeben, welche Variante dieses Modells es hier verwendet. Carolina Parada, Senior Director der Robotikabteilung von Google DeepMind, sagte, dass Gemini Robotics ein sehr komplexes "Vision-Language-Action"-Modell ist, dessen Hauptaufgabe darin besteht, völlig neue Situationen zu erkennen, ohne vorher trainiert zu werden.
Die Entwickler haben dieses Problem gelöst, indem sie das Gemini-Robotik-Modell verwendet haben, um humanoide Roboter in die Lage zu versetzen, ihre Umgebung zu verstehen, Entscheidungen zu treffen und diese Entscheidungen dann durch verschiedene physische Aktionen in die reale Welt zu übertragen. Für Gemini Robotics ist ein hohes Maß an Multimodalität erforderlich, und genau das kann Gemini 2.0 hinter den Kulissen bieten. Dies, so Parada, wird es in Zukunft einfacher machen, Roboter agiler, interaktiver und allgemeiner zu gestalten, als es bisher möglich war.
Carolina Parada freute sich, dass sie mit einem einzigen Modell die Entwicklung von humanoiden Robotern in drei wichtigen Bereichen entscheidend vorantreiben kann - eine große Leistung in diesem Segment.
In neuen Situationen und Umgebungen wird Gemini Robotics es Robotern ermöglichen, viel besser mit Menschen und ihrer Umgebung zu interagieren. Der DeepMind-Experte sagte auch, dass das Modell Robotern helfen wird, Präzisionsbewegungen zu entwickeln, so dass sie ein besseres Gespür dafür haben, wie sie "Feinabstimmungs"-Aufgaben ausführen können. Beispiele dafür sind das Herunterrollen des Deckels einer Wasserflasche oder das Falten eines Blattes Papier. Dazu sind natürlich auch bessere Roboterhandbewegungen auf der Hardware-Ebene erforderlich.
Das andere aktuelle Modell von DeepMind, Gemini Robotics-ER (embodied reasoning), ist ein hochentwickeltes visuelles Modell, das nach Angaben des Entwicklers bereits in der Lage ist, "unsere komplexe und dynamische Welt zu verstehen". Dank dieses Modells kann der humanoide Roboter wahrnehmen, was Objekte in seiner Umgebung tun können und wie sie es tun können. So kann er beispielsweise erkennen, wie man eine vor einem Tisch platzierte Lebensmittelbox öffnet, welche Teile man dafür greifen muss und wohin man sie bewegt. Das Modell kann mit den Low-Level-Steuerungen verbunden werden, die für die Bewegungen verantwortlich sind.
Vikas Sindhwani, ein weiterer DeepMind-Forscher, wies darauf hin, dass die Sicherheit bei der Entwicklung des Gemini Robotics-ER ein wichtiges Anliegen war. Es wurde eine Sicherheitsschicht eingebaut, und während des Betriebs des Modells prüft das System bei jeder Operation, ob die jeweilige Bewegung sicher ausgeführt werden kann. Wenn das System feststellt, dass irgendeine Form von Schaden verursacht werden könnte, wird der Prozess gestoppt.
DeepMind nimmt die Sicherheit so ernst, dass es auch einen neuen Test und ein neues Rahmenwerk angekündigt hat, das die künftige KI-Forschung in der Industrie absichern soll. Und im vergangenen Jahr hat das Unternehmen in diesem Sinne auch eine "Verfassung für die Robotik" erstellt, die ähnliche Regeln wie die von Isaac Asimov formulierten beschreibt.