Für dieses Jahr hat das -Mastermind auch die Google I/O neu gestaltet. In der Vergangenheit hat das Unternehmen bei dieser Veranstaltung immer Android in den Mittelpunkt gestellt, aber dieses Jahr bekam Android einen Vorsprung, da KI bei der Entwicklerkonferenz im Mittelpunkt stand. Es gab eine Menge Ankündigungen zu kleineren und größeren Sprachmodellen und KI.
Das Unternehmen eröffnete die Veranstaltung mit einem surrealen Video der neuesten, dritten Generation des Veo-Modells. Das Unternehmen will die Erstellung von Videos und Bildern in Zukunft einfacher machen und hat deshalb Flow entwickelt. Flow wird zusammen mit dem Videogeneratormodell Veo 3 und dem ebenso neuen Bildgeneratormodell Imagen 4 angeboten.
Mit Flow und den neuen Modellen haben die Nutzer mehr Kontrolle über die von der KI erstellten Inhalte als je zuvor. Zusätzlich zur einfachen Text-zu-Video-Funktion gibt es jetzt eine "Component to Video"-Funktion, mit der Sie neben dem Text auch Fotos oder sogar generierte Bilder hinzufügen können, um sicherzustellen, dass das generierte Video den Wünschen des Nutzers entspricht.
Mit dem neuen Veo 3-Modell können zwar weiterhin nur 8-Sekunden-Clips erstellt werden, aber mit Flow können Sie mehrere Szenen zu einem längeren Video zusammenfügen. Ein einzelnes Flow-Projekt kann aus Dutzenden von kurzen Szenen bestehen, so dass Sie sehr lange Videos vollständig mit KI erstellen können. Die generierten Szenen können auch auf der Grundlage von Textanweisungen geschnitten und erweitert werden. Wenn dem Nutzer ein Teil des Videos nicht gefällt, kann er ihn bearbeiten und auf der Grundlage neuer Informationen eine Erweiterung anfordern.
Flow wurde in Zusammenarbeit mit Google Labs entwickelt und ist im Wesentlichen wie eine Videobearbeitungssoftware, allerdings nicht für klassische Inhalte, sondern für Material, das bereits durch generative KI erstellt wurde. Flow ist für jedermann leicht zu bedienen, und es sind keine besonderen Kenntnisse erforderlich, um es zu nutzen, was ein wichtiger Aspekt bei seiner Entwicklung war. Google versucht, den Menschen ein Werkzeug an die Hand zu geben, dessen Nutzung jeder leicht erlernen kann.
Sowohl Imagen 4 als auch Veo 3 werden in der Lage sein, qualitativ hochwertigere Inhalte als je zuvor zu produzieren, mit lebensechteren Videos und Bildern. Beide Werkzeuge werden Verbesserungen bei der Verfolgung von Anweisungen aufweisen und in der Lage sein, längere, detailliertere Beschreibungen besser zu interpretieren - vor allem mit Veo 3. Die Vorstellungskraft der KI wird weniger abgelenkt als bisher, und die Darstellung wird insgesamt genauer. Imagen 4 kann jetzt auch Untertitel darstellen, etwas, womit die KI bisher Schwierigkeiten hatte.
Flow wird zum ersten Mal in den USA eingesetzt und ist für Erstnutzer verfügbar, die ein Google AI Pro- oder Google AI Ultra-Paket abonnieren. Google AI Pro wird die Möglichkeit bieten, bis zu 100 Videos pro Monat zu erstellen, während Google AI Ultra "die meisten Nutzungsmöglichkeiten" für Veo 3 garantieren wird. Imagen 4 ist jetzt in Gemini verfügbar und kann zur Erstellung von Bildern in anderen Google-Diensten verwendet werden. Eine schnellere Version ist in Vorbereitung, aber das bleibt abzuwarten.
Die oben erwähnten Abonnement-Optionen sind ebenfalls neu, vorher gab es solche Optionen nicht. Google AI Pro und AI Ultra sind beides Produkte der Google I/O, wobei letzteres eine recht teure Option geworden ist.
Bislang sind nur die US-Preise der neuen Abonnementoptionen bekannt. Das Google AI Pro-Abonnement wird netto 20 Dollar pro Monat kosten und bietet unter anderem bereits Flow-Zugang und die Möglichkeit, Gemini integriert mit Google Chrome zu nutzen.
Und Google AI Ultra bietet bereits alle Gemini-Modelle in der höchsten Nutzungsstufe, die es je gab, mit NotebookLM und Whisk sowie dem neuen Flow-Dienst. Es beinhaltet bereits 30 TB Speicherplatz, um Videos problemlos zu speichern, und auch YouTube Premium ist Teil dieses Pakets, aber es passt dazu, da es 250 US-Dollar (netto) pro Monat kosten wird.
Gemini hat bereits über 400 Millionen monatlich aktive Nutzer, aber es wurde nicht bekannt gegeben, wie viele Abonnenten Googles KI hat. Das Unternehmen ist zuversichtlich, dass immer mehr Menschen für den Dienst bezahlen werden, und es wird die Pakete AI Pro und AI Ultra von Google mit weiteren Extras ausstatten, damit sie sich lohnen.
Auf der Entwicklerkonferenz kündigte Google außerdem an, dass die Gemini Live-Funktion in der mobilen App nun für alle verfügbar sein wird. Ab sofort können Android und iOS Geräte mit der KI auf Sprachbasis chatten, ein Kamerabild teilen oder Inhalte anzeigen. Dies wurde bereits früher eingeführt, aber bis jetzt hatte nicht jeder diese Möglichkeit.
Google hat außerdem das Projekt Mariner gestartet, eine Initiative, die der KI beibringen soll, Computer zu benutzen. Zu diesem Zweck erweitert der Suchmaschinenriese die Gemini-API. Sundar Pichai sagte auf der Konferenz, dass die Nutzung von Computern eine extrem wichtige Agentenfähigkeit" für KI sei. Das Hauptaugenmerk des Unternehmens lag auf der Nutzung von Browsern, aber es ist geplant, die KI in die Lage zu versetzen, mit so viel Software wie möglich zu arbeiten. Project Mariner kann bereits bis zu 10 parallele Projekte überwachen, und es wird noch besser werden.
Google sagte auch, dass die Personalisierung von Gemini immer effektiver werden wird, aber es sagte auch, dass die Nutzer frei entscheiden können, welche Daten sie mit dem KI-Chatbot teilen. Gemini, der bei der Personalisierung gute Leistungen erbringt und dennoch sicher ist, wird auch in Google Mail, bei der Erstellung von Notizen in Google Drive und in anderen Diensten auftauchen.
Die Gemini 2.5-Modellfamilie wurde von Google bereits angekündigt, aber auch auf der Entwicklerkonferenz wurde viel darüber gesprochen. Das Unternehmen wies darauf hin, dass das verbesserte Sprachmodell Gemini 2.5 Pro in einer Reihe von anerkannten Tests führend ist und zum Beispiel die LMArena-Topliste und die WebDev Arena-Rangliste anführt. Die Gemini 2.5-Modelle arbeiten jetzt auch hinter Project Mariner und enthalten jetzt eine native Audioausgabe für ein natürlicheres Gesprächserlebnis.
Wenn alles nach Plan läuft, wird Gemini 2.5 Pro in seiner fertigen Form irgendwann im Juni verfügbar sein. Im Moment sind nur erste Tests im Gange, und Google sammelt fleißig Nutzer-Feedback. Darüber hinaus wird Gemini 2.5 Pro Deep Think, das bereits ein argumentatives Modell mit Googles neuester Technologie ist, später erscheinen, um sehr komplexe Fragen zu beantworten und komplexe Probleme zu lösen. Es befindet sich jedoch noch in einem frühen Stadium und kann nur von einem kleinen Team getestet werden.