Top 20 des modèles d’IA les plus performants en septembre 2025 : le classement complet

Claude Opus 4.1 caracole en tête du classement LMArena, tandis que GPT-5 continue de marquer le pas.

Claude Opus domine largement le classement LMArena au mois de septembre. © LMArena

Sommaire

Le modèle GPT-5, qui subit des critiques depuis son lancement en août, peine encore à rivaliser avec ses rivaux, affichant même des performances inférieures à celles de modèles plus anciens d’OpenAI, comme GPT-4o ou GPT-4.5. C’est ce que révèle la version actualisée de LMArena, un classement censé évaluer objectivement les modèles d’IA à partir des votes des utilisateurs.

Les 10 modèles d’IA les plus performants en septembre 2025

Troisième en août, GPT-5 recule désormais à la sixième place du classement général de LMArena, qui compile les performances des modèles dans plusieurs catégories (écriture créative, codage, raisonnement mathématique, etc.). Sa version « high » reste largement dominée par Claude Opus 4.1, lancé en août par Anthropic et toujours en tête dans toutes les catégories. En seconde position, on retrouve Gemini 2.5 Pro, le modèle le plus avancé de Google, tandis que GPT-4o, nettement moins performant en raisonnement mathématique, complète le podium. Si OpenAI ne domine plus le classement, l’entreprise réussit toutefois à placer cinq modèles dans les dix premières positions.

Voici les 10 modèles d’IA générative les plus performants en septembre 2025 :

Claude Opus 4.1 « thinking »
Gemini 2.5 Pro
ChatGPT 4o-latest
Claude Opus 4.1
GPT-4.5
GPT-5 « high »
o3
Qwen3
GPT-5 « chat »

Accéder au classement complet

IA : les modèles les plus performants par domaine

Depuis quelques mois, la nouvelle version de LMArena (ex-Chatbot Arena) établit plusieurs classements par catégorie. Voici les modèles qui tirent leur épingle du jeu selon les tâches à accomplir :

Génération de texte : comme en août, Gemini 2.5 Pro reste le modèle le plus performant pour générer du texte, devant la version « thinking » de Claude Opus 4.1 et le modèle o3 d’OpenAI.
Développement web : GPT-5 domine ce classement devant deux déclinaisons de Claude Opus 4.1, annoncé comme étant particulièrement performant dans ce domaine.
Génération d’images : encore peu connu en Europe, Seedream, le modèle conçu par ByteDance, devance Gemini 2.5 Flash, qui dominait les classements sous l’appellation nano-banana avant son lancement officiel. Google domine cette catégorie, avec trois modèles parmi les quatre premiers.
Analyse d’images : si Gemini 2.5 Pro occupe la première position, OpenAI affiche de bonnes performances dans ce domaine. Ses différentes déclinaisons occupent le reste du top 5.
Recherche web : Grok-4 s’empare de la tête de ce classement, jusque-là dominé par o3-search. À l’inverse, les modèles Sonar de Perplexity reculent nettement. Ils occupent la huitième et neuvième position.

generation-texte-webdev-lmarena-septembre-2025 — GPT-5 est loin d’exceller dans la génération de texte. © LMArena

Les critères de classement de LMArena

Pour évaluer objectivement les performances des modèles d’IA, LMArena organise des duels anonymisés. Chaque modèle répond au même prompt, et les utilisateurs votent pour la meilleure réponse. Un système de score Elo permet ensuite de classer les modèles selon leurs résultats : une défaite face à un modèle moins bien classé fait perdre des points, tandis qu’une victoire contre un adversaire mieux classé en fait gagner. Le classement est mis à jour en temps réel.