ChatGPT Images 2.0, le nouveau modèle de génération d’images d’OpenAI

Mode Thinking, génération de plusieurs images, formats flexibles et texte amélioré : ChatGPT Images 2.0 embarque plusieurs nouveautés pour contrer Nano Banana 2.

ChatGPT s'améliore nettement sur la génération d'images. © OpenAI

Sommaire

OpenAI présente ChatGPT Images 2.0 comme un modèle pensé pour le travail plutôt que pour l’expérimentation visuelle. Les progrès se concentrent sur deux aspects : une fidélité renforcée aux consignes et aux éléments fins d’un côté, un nouveau mode de raisonnement de l’autre.

Un modèle plus puissant, fidèle aux consignes et au texte

Le modèle s’améliore là où les générateurs d’images montrent leurs limites habituellement : compositions denses, petits textes, icônes, éléments d’interface et contraintes stylistiques subtiles. ChatGPT Images 2.0 supporte différents ratios d’image, de 3:1 à 1:3, pour couvrir les formats utilisés par les pros : bannières, slides, affiches ou visuels mobiles. La résolution maximale atteint 2K via l’API.

screenshot — Des images générées avec le nouveau modèle d'OpenAI © OpenAI

images-2-wbaseball-note — Des images générées avec le nouveau modèle d'OpenAI © OpenAI

Côté styles, OpenAI montre des progrès importants sur la photo, les rendus cinématographiques, le pixel art ou encore le manga. Le rendu de texte s’étend également aux langues non latines, comme le japonais, le coréen, le chinois…

images-2-candid-people-1 — D'autres exemples générés avec ChatGPT Images 2.0 © OpenAI

images-2-aliens — D'autres exemples générés avec ChatGPT Images 2.0 © OpenAI

Un mode Thinking pour raisonner et générer plusieurs images

C’est l’une des principales nouveautés : ChatGPT Images 2.0 est le premier modèle d’image d’OpenAI doté de capacités de raisonnement. Lorsque le mode Thinking est activé sur ChatGPT, le générateur peut interroger le web pour récupérer des informations à jour, structurer l’image avant génération et vérifier ses créations.

Ce mode permet aussi de créer jusqu’à 8 images distinctes à partir d’un même prompt, avec une continuité des personnages et des objets entre les visuels. De quoi générer en une seule requête une séquence de manga, une série d’affiches ou un ensemble de visuels décliné pour les réseaux sociaux.

imagegen_call_000_image_000 — ChatGPT peut générer une déclinaison de visuels © OpenAI

imagegen_call_001_image_001 — ChatGPT peut générer une déclinaison de visuels © OpenAI

Comment accéder à ChatGPT Images 2.0

Le principe de déploiement est habituel : la version standard du modèle est accessible à tous, les capacités de raisonnement sont réservées aux abonnés.

Les accès à ChatGPT Images 2.0

Le modèle est disponible selon les modalités suivantes :

Mode Instant : tous les utilisateurs de ChatGPT et Codex, y compris sur le plan gratuit
Mode Thinking : abonnés ChatGPT Plus, Pro et Business
API : modèle gpt-image-2, tarification au token selon la qualité et la résolution

OpenAI répond à Google sur la génération d’images

Fin février, Google avait impressionné tout le monde avec Nano Banana 2, un modèle capable de produire des résultats très réalistes. ChatGPT Images 2.0 est clairement la réponse d’OpenAI à Google, les exemples produits sont de haute qualité. Le modèle s’aligne sur ses points forts et va plus loin avec le mode Thinking et la génération simultanée de plusieurs images, avec des évolutions qui intéresseront les professionnels. OpenAI et Google sont désormais les deux acteurs majeurs de la génération d’images, loin devant leurs concurrents.