IA : les 10 générateurs d’images les plus performants en juillet 2024

Midjourney V6 est en tête du classement, tandis que DALL-E 3 ne parvient pas à se hisser sur le podium.

Stable Diffusion 3 et Playground v2.5 parviennent à surpasser DALL-E 3. © Capture BDM

Artificial Analysis, structure spécialisée dans les analyses comparatives sur les modèles d’IA, publie son classement des modèles de génération d’images par IA, nomméText to Image Arena. Ce classement, basé sur les retours des utilisateurs, s’appuie sur le même principe que la Chatbot Arena, une initiative de l’université de Berkeley visant à évaluer les modèles de génération de texte par un système Elo.

Ci-dessous, retrouvez les IA génératrices d’images les plus performantes en juillet 2024.

Générateurs d’images : Midjourney v6 domine ses concurrents

En juillet 2024, Midjourney V6, le modèle le plus performant de Midjourney, semble avoir une longueur d’avance sur ses concurrents. Avec un score Elo de 1 165 et un taux de victoires de 71 % (voir méthodologie ci-dessous), il devance Stable Diffusion 3 (score Elo de 1 150, 68 % de victoires) et Playground v2.5 (score Elo de 1 096, 61 % de victoires), qui complètent le podium.

Ainsi, si OpenAI reste leader dans la génération de texte, la firme dirigée par Sam Altman n’a pas réussi à rattraper le retard de DALL-E sur Midjourney. DALL-E 3 intégré notamment dans ChatGPT et Microsoft Copilot, occupe les 4e (version HD) et 5e (version standard) places du classement. Malgré des améliorations observées lors du passage de DALL-E 2 à DALL-E 3, le modèle présente encore d’importantes lacunes dans la génération d’images réalistes.

Voici les 10 modèles de langage les plus performants en juillet 2024 :

Midjourney V6 : 1 165 (score Elo)
Stable Diffusion 3 : 1 150
Playground v2.5 : 1 096
DALLE 3 HD : 1 091
DALLE 3 : 1 071
Stable Diffusion 3 Turbo : 1 034
Stable Diffusion 1.6 : 1 028
Stable Diffusion 3 Medium : 1 026
SDXL Lightning : 1 007
Amazon Titan G1 : 1 006

Comment fonctionne la Text to Image Arena ?

La Text to Image Arena met à contribution les utilisateurs en organisant des duels entre deux modèles de génération d’images anonymisés. Les participants sont amenés à choisir le modèle qu’ils jugent le plus performant sur un prompt commun. In fine, les modèles sont classés selon le système Elo, couramment utilisé dans les compétitions d’échecs. Ce système évalue la performance des modèles en ajustant leurs scores en fonction des résultats de chaque duel, permettant ainsi un classement dynamique. Celui-ci est actualisé toutes les heures.