Im vergangenen Jahr verschaffte sich Google mit der Einführung der Modelle Nano Banana, Veo und Gemini 3 eine hervorragende Wettbewerbsposition, und viele sprachen bereits davon, dass OpenAI gegenüber Google langsam ins Hintertreffen geraten könnte. In den letzten Wochen hat OpenAI jedoch sehr schöne Fortschritte gemacht: GPT-5.4 ist sehr gut gelungen, und nun ist ChatGPT Images 2.0 auf den Markt gekommen, das ebenfalls großes Potenzial in sich birgt.
OpenAIs Bildgenerierungsmodell der nächsten Generation ist von Grund auf so konzipiert, dass es aus Textaufforderungen und anderen Bildern qualitativ hochwertige visuelle Grafiken erzeugt, die präzise und gut strukturiert sind und mit denen man sofort arbeiten kann.
Ein besonderer Schwerpunkt bei der Entwicklung des Modells lag auf der Fähigkeit, Text in einer sehr detaillierten und genauen Weise innerhalb der verschiedenen Bilder zu erzeugen. ChatGPT erhält sehr komplexe Richtlinien für die Generierung von Bildern, bis hin zur feinkörnigen Generierung einer beträchtlichen Menge an Text, wobei z. B. Schriftart und andere formale Merkmale konsistent gehalten werden.
OpenAI war so erpicht darauf, die Texterzeugungsfähigkeiten von ChatGPT Images 2.0 zu demonstrieren, dass sie beschlossen, eine vollständige Pressemitteilung darüber in Form von vollständig generierten Bildern zu veröffentlichen. Es war eine ziemlich spektakuläre Demonstration, die offensichtlich das Interesse der Menschen weckte. Das Modell ist auch in der Lage, Bildunterschriften in verschiedenen Sprachen in einem einzigen Bild zu erzeugen. Besonders beeindruckend ist die Verbesserung der Sprachunterstützung für Sprachen wie Japanisch, Hindi und Koreanisch.
Das Unternehmen betonte, dass das Modell auch das Problem lösen wird, kohärente grafische Lösungen für mehrere generierte Bilder in einem Workflow mit hoher Präzision verwenden zu müssen. Dadurch eignet es sich viel besser für Situationen wie die Gestaltung der grafischen Oberfläche einer Anwendung oder die Erstellung eines Covers in einem bestimmten Stil für ein periodisches Magazin. Die Kompositionskontrolle wurde ebenfalls erheblich verbessert, so dass ChatGPT Images 2.0 viel effektiver sein kann, wenn Sie ein Bild gestalten müssen.
Die neue Generation des Bildgenerierungsmodells verfügt auch über eine Argumentationsfähigkeit, die es dem Modell erlaubt, die gegebenen Anweisungen im Detail zu verarbeiten, bevor es Bilder generiert. In den verschiedenen unterstützten Modi kann ChatGPT Images 2.0 nun auch auf das Web zugreifen und von dort Informationen für Bilder abrufen. Der Umgang mit gängigen Stilen wie Comic, Pixel Art, Illustration, Strichzeichnung, Manga und mehr wurde stark verbessert.
Eine weitere wichtige Verbesserung ist, dass ChatGPT Images 2.0 nun spezifischere Seitenverhältnisse unterstützt, so dass es sich zum Beispiel für die Erstellung von küchenfertigem Material für Banner oder für verschiedene Werbeflächen eignet. OpenAI hat das Modell von Anfang an so konzipiert, dass es gebrauchsfertige, arbeitsfähige Bilder erstellt, ohne dass diese angefordert werden müssen. Allerdings ist die Auflösung noch recht begrenzt, wobei das Unternehmen sagt, dass "bis zu 2K"-Qualität erwartet werden kann.
Das Modell ChatGPT Images 2.0 ist eine Lektion für die Nano Banana 2 und die frühere Nano Banana Pro, die von Google im Februar auf den Markt gebracht wurde, und für die MAI-Image 2, die von Microsoft in der zweiten Märzhälfte eingeführt wurde. Die neue Funktion von OpenAI ist für alle ChatGPT-Optionen verfügbar und wird auch innerhalb des Codex-Frameworks für alle Nutzer zur Verfügung gestellt und ist auch für externe Partner über die API verfügbar.