Les 10 générateurs d’images par IA les plus performants en août 2024

Les modèles de Midjourney sont désormais concurrencés par ceux de Black Forest Labs, la startup fondée par les créateurs de Stable Diffusion.

DALL-E, le générateur conçu par OpenAI, accuse un retard conséquent sur ses concurrents. © Artificial Analysis

Alors que le marché des générateurs text-to-image se densifie progressivement, une question demeure : quel est l’outil offrant les meilleures performances ? L’organisme Artificial Analysis, qui fournit des « analyses comparatives et des informations objectives pour aider les développeurs, les consommateurs, les chercheurs et les utilisateurs de modèles d’IA », propose une réponse à cette question avec Text to Image Arena. Un classement, semblable à la Chatbot Arena, qui évalue objectivement les modèles de génération d’images alimentés par l’IA en s’appuyant sur les contributions des internautes. Sur le site de l’organisme, les visiteurs sont invités à comparer deux modèles dont l’identité leur est cachée, en évaluant celui qui répond le plus précisément à la requête.

Les 10 modèles de génération d’images les plus performants en août 2024

En août 2024, surprise : le classement établi par Artificial Analysis est dominé par un nouvel acteur. Black Forest Labs, startup fondée par les créateurs de Stable Diffusion, s’empare directement de la première place grâce à la version la plus avancée de FLUX.1, un modèle génératif dévoilé le 1er août 2024. En moins d’un mois, cette technologie, qui alimente le générateur controversé de l’agent conversationnel Grok conçu par X (Twitter), s’est solidement implantée dans ce classement, puisque deux autres itérations se placent dans le top 10 (4e et 7e).

Le reste du podium est occupé par le dernier modèle déployé par Ideogram et la version 6.1 de Midjourney qui s’est récemment affranchi de Discord en lançant son propre site web. Dans le reste du classement, Stability.ai se maintient dans le top 10 (6e), tout comme Playground AI (8e). Leader dans la génération de texte, OpenAI accuse un retard notable sur la concurrence en matière de génération d’images, ses technologies alimentant DALL-E ne se plaçant qu’en 9e et 10e positions.

Voici les 10 modèles de génération d’images les plus performants en août 2024 :

FLUX.1 [pro] : 1 151 (score Elo)
Ideogram v2 : 1 130
Midjourney v6.1 : 1 126
FLUX.1 [dev] : 1 118
Midjourney v6 : 1 112
Stable Diffusion 3 Large : 1 098
FLUX.1 [schnell] : 1 091
Playground v2.5 : 1 046
DALLE 3 HD : 1 041
DALLE 3 : 1 023

Découvrir le classement complet

Les critères de classement de la Text to Image Arena

À l’instar de la Chatbot Arena, Text to Image Arena repose sur un système de duels. Le principe est le suivant : les utilisateurs sont invités à départager deux modèles anonymisés, en désignant celui qui répond le mieux à la requête initiale. Chaque modèle reçoit ensuite un score Elo, qui évolue en fonction de ses performances. Par exemple, si un modèle A subit une défaite contre un modèle B dont le score Elo est plus faible, il perd des points, et inversement. Selon Artificial Analysis, le classement est actualisé toutes les heures.

Sujets liés :