ChatGPT Images 2.0, le nouveau modèle de génération d’images d’OpenAI
Mode Thinking, génération de plusieurs images, formats flexibles et texte amélioré : ChatGPT Images 2.0 embarque plusieurs nouveautés pour contrer Nano Banana 2.
OpenAI présente ChatGPT Images 2.0 comme un modèle pensé pour le travail plutôt que pour l’expérimentation visuelle. Les progrès se concentrent sur deux aspects : une fidélité renforcée aux consignes et aux éléments fins d’un côté, un nouveau mode de raisonnement de l’autre.
Un modèle plus puissant, fidèle aux consignes et au texte
Le modèle s’améliore là où les générateurs d’images montrent leurs limites habituellement : compositions denses, petits textes, icônes, éléments d’interface et contraintes stylistiques subtiles. ChatGPT Images 2.0 supporte différents ratios d’image, de 3:1 à 1:3, pour couvrir les formats utilisés par les pros : bannières, slides, affiches ou visuels mobiles. La résolution maximale atteint 2K via l’API.
Côté styles, OpenAI montre des progrès importants sur la photo, les rendus cinématographiques, le pixel art ou encore le manga. Le rendu de texte s’étend également aux langues non latines, comme le japonais, le coréen, le chinois…
Un mode Thinking pour raisonner et générer plusieurs images
C’est l’une des principales nouveautés : ChatGPT Images 2.0 est le premier modèle d’image d’OpenAI doté de capacités de raisonnement. Lorsque le mode Thinking est activé sur ChatGPT, le générateur peut interroger le web pour récupérer des informations à jour, structurer l’image avant génération et vérifier ses créations.
Ce mode permet aussi de créer jusqu’à 8 images distinctes à partir d’un même prompt, avec une continuité des personnages et des objets entre les visuels. De quoi générer en une seule requête une séquence de manga, une série d’affiches ou un ensemble de visuels décliné pour les réseaux sociaux.
Comment accéder à ChatGPT Images 2.0
Le principe de déploiement est habituel : la version standard du modèle est accessible à tous, les capacités de raisonnement sont réservées aux abonnés.
Les accès à ChatGPT Images 2.0
Le modèle est disponible selon les modalités suivantes :
- Mode Instant : tous les utilisateurs de ChatGPT et Codex, y compris sur le plan gratuit
- Mode Thinking : abonnés ChatGPT Plus, Pro et Business
- API : modèle gpt-image-2, tarification au token selon la qualité et la résolution
OpenAI répond à Google sur la génération d’images
Fin février, Google avait impressionné tout le monde avec Nano Banana 2, un modèle capable de produire des résultats très réalistes. ChatGPT Images 2.0 est clairement la réponse d’OpenAI à Google, les exemples produits sont de haute qualité. Le modèle s’aligne sur ses points forts et va plus loin avec le mode Thinking et la génération simultanée de plusieurs images, avec des évolutions qui intéresseront les professionnels. OpenAI et Google sont désormais les deux acteurs majeurs de la génération d’images, loin devant leurs concurrents.