ChatGPT abandonne DALL-E et se dote enfin d’un bon générateur d’images
OpenAI lance 4o Image Generation, un nouveau modèle de génération d’images. Celui-ci remplace désormais DALL-E dans ChatGPT. Voici ce qu’il vaut !
À son lancement en 2021, DALL-E était perçu comme une révolution. Si les visuels générés n’étaient pas exempts de défauts et d’incohérences, la capacité de créer des images de toutes pièces à partir de simples requêtes textuelles semblait représenter un pas de géant dans la création graphique assistée pmidar IA. Mais rapidement, la plateforme s’est retrouvée dépassée par la plupart de ses concurrents (Midjourney, FLUX, Stable Diffusion), au point de devenir le talon d’Achille d’OpenAI. Un retard que la firme semble décidée à combler. Ce mardi 25 mars 2025, OpenAI lui a désigné un successeur : 4o Image Generation, qui est d’ores et déjà intégré à ChatGPT. Toutefois, les utilisateurs de la version gratuite devront, pour le moment, se contenter de DALL-E 3.
OpenAI dévoile 4o Image Generation
Dans son communiqué, la startup annonce son ambition de proposer « une génération d’images qui n’est pas seulement belle, mais utile ». Elle se base en effet sur un constat juste : les générateurs d’images sont capables de produire des visuels de grande qualité, mais prennent souvent des libertés par rapport aux requêtes des utilisateurs. Ainsi, selon OpenAI, « GPT‑4o Image Generation excelle dans le rendu précis du texte, le suivi rigoureux des invites et l’exploitation de la base de connaissances inhérente à 4o ainsi que du contexte du chat ». Un atout qui se manifeste tant dans sa capacité à générer des images from scratch que dans la possibilité de transformer des visuels déjà existants.
Nous avons entraîné nos modèles sur la distribution conjointe d’images et de textes en ligne, en apprenant non seulement comment les images sont liées au langage, mais aussi comment elles sont liées les unes aux autres. Combiné à un post-entraînement agressif, le modèle obtenu présente une fluidité visuelle surprenante, capable de générer des images utiles, cohérentes et tenant compte du contexte, explique OpenAI.
Autre qualité annoncée : la possibilité d’ajouter du texte et des symboles à l’image. Une innovation simple, mais qui répond à un défaut observé chez tous les générateurs d’images, sans exception : l’incapacité à intégrer un texte de manière cohérente. Enfin, 4o Image Generation peut intégrer jusqu’à 20 objets par image et poursuivre la conversation pour améliorer le visuel au fur et à mesure.
Génération simple, style dessiné, modification d’image : notre test du nouveau générateur d’images de ChatGPT
4o Image Generation est-il à la hauteur des annonces d’OpenAI ? Nous avons testé le nouveau générateur d’images de ChatGPT en utilisant plusieurs prompts. Voici ce qu’il vaut.
Génération d’une image à partir de 0
Pour commencer, nous demandons au générateur de créer une image simple, afin d’observer la qualité du rendu. Nous lui soumettons le prompt suivant : « Génère une image d’un homme assis sur le capot d’une voiture des années 50, au bord de la mer. » Manifestement, la qualité des images est à mille lieues de celle de DALL-E. Le visage, notamment, est fidèlement représenté.
Mais que se passe-t-il lorsqu’on intègre davantage de détails ? Pour répondre à cette question, nous demandons à 4o Image Generation de générer une image dont la scénographie est très précise : « Un compartiment de train à grande vitesse en mouvement, avec de grandes vitres montrant un paysage flou de campagne. Une jeune femme lit un livre, des écouteurs dans les oreilles, une valise cabine à ses pieds. Lumière naturelle douce, ambiance calme. » Le défi est relevé haut la main.
Génération d’une image au style dessiné
Le nouveau modèle est-il aussi à l’aise avec un style dessiné ? Pour le savoir, nous demandons à ChatGPT de réaliser une affiche dans un style Bauhaus. Pour le pousser dans ses retranchements, nous ne sommes, une fois encore, pas avares de détails. Voici le prompt : « Affiche dans le style Bauhaus, années 1920, typographie géométrique sans empattement, composition asymétrique avec formes abstraites (cercles, triangles, lignes). Couleurs primaires dominantes : rouge, bleu, jaune, avec du noir et du beige en fond. Titre en haut à gauche : ‘WERKSTATT 1927’. Au centre, un grand cercle rouge intersecté par une ligne noire diagonale, avec un petit personnage stylisé en silhouette au pied. En bas, texte en allemand : ‘Eine Ausstellung des Neuen Designs – Berlin, März 1927’. Texture papier vieillie, style d’impression sérigraphique. » Le résultat est tout simplement bluffant.
Modification d’une image
Loin de se contenter de générer des images à partir de zéro, 4o Image Generation sait aussi modifier nos propres images. Ci-dessous, nous lui transmettons une vraie photo de chat et lui demandons de lui faire tourner la tête. Le résultat, même si imparfait, est très prometteur.
Le modèle est aussi supposé pouvoir itérer. À partir de l’image générée, nous lui demandons d’intégrer un collier affichant le nom « Minou ». Cela nous permet également de vérifier s’il est en mesure d’ajouter du texte dans une scène réaliste. ChatGPT s’exécute sans problème.
4o Image Generation peut-il générer des images de personnalités publiques ?
Dans sa présentation, OpenAI propose un exemple mettant en scène Karl Marx. Nous nous sommes donc demandé s’il était en mesure de générer des visuels de personnalités publiques. Nous lui avons soumis le prompt suivant : « Image d’Emmanuel Macron à vélo dans les rues de Rio ». Nous nous attendions à un refus de l’outil, pour des raisons liées à la lutte contre la désinformation, mais celui-ci s’est exécuté. En revanche, le visage du Président semble quelque peu déformé.
L’aspect déformé disparaît toutefois lorsque nous lui demandons simplement « un homme aux cheveux châtain, 45 ans, à vélo dans les rues de Rio ».
Que vaut OpenAI dévoile 4o Image Generation : notre bilan
Alors qu’OpenAI semblait avoir accumulé un retard conséquent sur la concurrence en matière de génération d’images, le créateur de ChatGPT vient de renverser la table. 4o Image Generation est, sans aucun doute, le générateur d’images le plus performant actuellement disponible sur le marché.
Si la qualité des images proposées reste globalement proche de celle produite par certains outils comme Midjourney — avec, parfois, quelques légères imperfections sur les visages —, le modèle se distingue par une compréhension des requêtes utilisateurs qui surpasse largement celle de ses rivaux. La possibilité de modifier une image ou d’y ajouter du texte constitue également un sérieux atout.
Community managers : découvrez les résultats de notre enquête 2025
Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !
Je m'inscris