Classement : les 10 modèles d’IA les plus performants en septembre 2024

Le modèle o1, récemment dévoilé par OpenAI, se hisse à la première place de la Chatbot Arena, tandis que Grok-2 réalise une entrée remarquée.

OpenAI frappe un grand coup avec o1-preview et o1-mini, ses modèles les plus avancés. © LMSYS

Bousculé par Google et ses modèles Gemini au mois d’août, OpenAI riposte. L’entreprise à l’origine de ChatGPT reprend les trois premières places de la Chatbot Arena en septembre 2024, grâce au lancement de ses nouveaux modèles o1-preview et o1-mini, conçus pour les tâches complexes.

Les 10 modèles de langage les plus performants en septembre 2024

Suivie de près par les acteurs du marché de l’IA générative, la Chatbot Arena tente de hiérarchiser objectivement les modèles génératifs en s’appuyant sur les contributions des utilisateurs. Ce classement, créé et actualisé par des étudiants et chercheurs de l’Université de Berkeley, aux États-Unis, tente de pallier les limites des méthodes d’évaluation internes des entreprises, souvent jugées insuffisantes ou biaisées, en confiant l’arbitrage à des humains. Ces derniers sont invités à évaluer, sur la base d’un prompt identique, les réponses fournies par deux modèles dont l’identité leur est cachée.

Dans la dernière mise à jour, OpenAI occupe cinq des dix premières positions de la Chatbot Arena grâce aux modèles o1-preview et o1-mini, ainsi qu’aux dernières itérations de GPT-4o et GPT-4o mini. En septembre 2024, seuls trois acteurs rivalisent encore avec la société basée à San Francisco : Google (4e et 9e), Anthropic (8e) et xAI, entreprise fondée par Elon Musk, qui intègre le haut du tableau pour la première fois.

Déployés en août, les modèles Grok-2 et Grok-2 mini, qui alimentent le controversé chatbot Grok, accessible aux utilisateurs payants de X, se classent respectivement en 5e et 10e position ce mois-ci. Une entrée remarquée, qui semble corroborer les benchmarks publiés par xAI, qui suggéraient que cette famille de modèles pouvait concurrencer GPT-4 Turbo ou Gemini 1.5 Pro en matière de performances. Comme en août, Meta et Mistral, deux acteurs majeurs de l’IA générative, ne figurent pas dans le top 10.

Voici le classement des modèles génératifs les plus performants en septembre 2024 :

o1-preview : 1 355 (Score Elo)
ChatGPT 4o Latest : 1 335
o1-mini : 1 324
Gemini 1.5 Pro 0827 : 1 299
Grok-2 0813 : 1294
GPT-4o 0512 : 1 285
GPT-4o mini 0718 : 1 273
Claude 3.5 Sonnet : 1 269
Gemini 1.5 Flash 0827 : 1 269
Grok-2 Mini 0813 : 1 267

Les critères de classement de la Chatbot Arena

Pour établir une hiérarchisation objective des modèles génératifs proposés sur le marché, la Chatbot Arena repose sur un système de duels. Les utilisateurs sont invités à départager deux modèles anonymisés, en désignant celui qui répond le plus précisément à la requête initiale.

Chaque modèle reçoit un score Elo, correspondant à une cote provisoire qui évolue en fonction des résultats des matches. Comprenez : lorsqu’un modèle gagne face à un adversaire supposément supérieur, il engrange des points, et inversement. Le système d’Elo est notamment utilisé dans les compétitions d’esport ou d’échecs. Il a été également adopté par Artificial Analysis, l’organisme qui propose un classement pour les générateurs d’images alimentés par l’IA.