OpenAI arbeitet ständig daran, ChatGPT für die Nutzer attraktiv zu halten und liefert regelmäßig Updates. Es hat gerade eine seiner beliebtesten Funktionen, die Bilderzeugung, auf eine neue Ebene gebracht, und zwar auf eine etwas überraschende Weise. Es verwendet ein nicht zweckgebundenes Bildmodell.
OpenAI hat im Laufe der Jahre eine Vielzahl von Modellen entwickelt, wobei der Schwerpunkt in letzter Zeit auf argumentativen Modellen lag, aber das Unternehmen verfügt über eine spezielle Lösung für die Verwaltung von Bildern. Auch das DALL-E-Modell hat sich seit seiner Einführung stark weiterentwickelt, aber jetzt hat das Unternehmen beschlossen, es einem Benchmarking zu unterziehen. Das GPT-4o wird von nun an auch Bilder erstellen können. Es handelt sich um ein omnimodales Tool, das letztes Jahr auf den Markt gebracht wurde, und es sieht so aus, als würde es mehr können, als wir dachten.
Bislang hat OpenAI das GPT-4o-Modell nur zur Texterzeugung verwendet, aber dank seiner omnimodalen Funktionsweise kann es neben der Verarbeitung von Bildern, Text, Ton und Video auch jede Art von Material erzeugen. Bei Bedarf kann es auch solche Inhalte erstellen, und die Nutzer können nun sehen, wie es sich verhält, wenn es mit der Bilderzeugung betraut wird.
Laut OpenAI wird die GPT-4o-basierte Bildgebungsfunktion den Nutzern auffallen, weil sie den Kontext sehr gut behalten kann und komplexe Anweisungen von der künstlichen Intelligenz genau abgebildet werden können. Das Unternehmen demonstrierte dies durch die Überlagerung von 16 verschiedenen kleineren Grafiken auf einem einzigen Bild mit einer einzigen komplexen Anweisung. Neben der Genauigkeit hat die neue Lösung noch weitere Vorzüge.
Insbesondere hob OpenAI hervor, dass die Rendering von Text viel besser sein wird.
Wie Sie wissen, verbluten derzeit die meisten Bildgeneratoren, wenn sie Text in Bilder einfügen müssen. Buchstaben geraten aus dem Lot, Ausrichtungen verrutschen, und das System kann Linien nicht halten. Der Text ist das, was bei gefälschten Bildern am häufigsten scheitert. Die neue GPT-4o-basierte Version wird in dieser Hinsicht viel besser sein. Bei kürzeren Winkeln funktioniert sie sehr gut, aber bei längerem Fließtext kann diese immer noch im Weg sein.
OpenAI verriet, dass die neue Lösung die Bilder in Teilen erstellt und nicht alle auf einmal, wie die meisten früheren Bildgeneratoren es versucht haben. Dies ermöglicht es, genauer zu sein. Das Unternehmen sagt, dass sich der Bildgenerator von ChatGPT in dieser Form bereits als effizienter Kollaborateur erweisen könnte. Es wird möglich sein, die von ihm erzeugten Bilder in mehr Bereichen zu verwenden.
ChatGPT wird weiterhin die Verwendung des DALL-E Modells erlauben, falls jemand es benötigt. Die Modelle liefern unterschiedliche Ergebnisse, und es gibt Situationen, in denen DALL-E immer noch besser und schneller arbeitet. Die auf GPT-4o basierende Bilderzeugung ist zeitaufwändiger, was z. B. bei der Arbeit verwirrend sein kann. Um zum DALL-E-Modell zu wechseln, müssen Sie in den Optionen am unteren Rand des Textfelds ausdrücklich auswählen, dass Sie es verwenden möchten.
Der neue Bildgenerator steht allen zur Verfügung, ChatGPT Pro-Abonnenten und "Missbraucher" mit freiem Zugang können ihn ausprobieren. ChatGPT begrenzt die Anzahl der Bilder, die Sie mit verschiedenen Paketen erstellen können. Diejenigen, die die Funktion kostenlos nutzen, können ihr tägliches Limit durch die Erstellung einiger Bilder ausdehnen, und es sollte hinzugefügt werden, dass das Limit für DALL-E und GPT-4o das gleiche ist.