Les 10 modèles d’IA les plus performants en novembre 2024

Surprise ce mois-ci : Gemini dépasse ChatGPT-4o et prend la tête de la Chatbot Arena. Découvrez le classement.

Ce mois-ci, Mistral quitte le top 20. © Chatbot Arena

Sommaire

La Chatbot Arena est un classement produit par la Large Model Systems Organization (LMSYS), qui évalue de manière objective les performances des modèles d’intelligence artificielle, en s’appuyant sur les retours des utilisateurs. Mis à jour en temps réel, il permet de bénéficier d’un aperçu des tendances en termes d’IA générative en général et de génération de texte en particulier.

En novembre 2024, la tête du classement évolue, avec un retour en force de Google. On fait le point !

Chatbot Arena : Gemini devance ChatGPT

En matière d’IA, Google peut-il revenir à hauteur d’OpenAI ? À en croire le dernier classement de la Chatbot Arena, les efforts de la firme de Menlo Park semblent porter leurs fruits. Ce mois-ci, Gemini et son modèle Gemini-Exp-1121 devancent ChatGPT-4o pour se hisser en première position, une première depuis le lancement de la Chatbot Arena.

C’est la première fois que Gemini parvient à atteindre la tête du leaderboard. Jusqu’ici, seul Claude avait réussi à disputer cette place à OpenAI, en mars dernier. Gemini-Exp-1121 a été lancé par Google le 21 octobre 2024. Il intègre une « amélioration des capacités de codage, de raisonnement et de vision », est-il indiqué dans la page consacrée. Par ailleurs, Google parvient à placer un autre de ses modèles sur le podium : Gemini-Exp-1114.

Les 10 modèles de langage les plus performants en novembre 2024

OpenAI parvient tout de même à truster la majorité des places du top 10, grâce à son modèle phare GPT-4 et à ses modèles dédiés à la recherche o1-preview et o1-mini. Dans le reste du classement, il faut descendre jusqu’à la 7e place pour trouver un langage qui n’est ni l’œuvre de Google, ni celle d’OpenAI : Grok, produit par l’entreprise d’Elon Musk, xAI, qui était déjà 6e le mois dernier.

Claude, souvent considéré comme un des principaux concurrents de ChatGPT et habitué aux hauteurs du classement, doit se contenter d’une 10e place. L’arrivée de 3.5 Haiku et la mise à jour de 3.5 Sonnet, fin octobre, n’ont pas suffi à propulser à nouveau l’entreprise au niveau d’OpenAI et de Google. Il en est de même pour l’entreprise française Mistral, qui quitte le top 20 malgré l’importante mise à jour apportée à son IA, Le Chat.

Voici les 10 modèles de langage les plus performants en novembre 2024 :

Gemini-Exp-1121 : 1365 (score Elo)
ChatGPT-4o-latest (2024-11-20) : 1361
Gemini-Exp-1114 : 1344
o1-preview : 1334
o1-mini : 1308
Gemini-1.5-Pro-002 : 1301
Grok-2-08-13 : 1289
Yi-Lightning : 1287
GPT-4o-2024-05-13 : 1285
Claude 3.5 Sonnet (20241022) : 1282

Les critères de classement de la Chatbot Arena

La Chatbot Arena propose une méthode innovante pour évaluer les modèles de langage. Basée sur le principe du duel, elle invite les utilisateurs à départager deux modèles anonymisés en choisissant celui qui répond le mieux à une requête. Ce processus permet d’établir un classement objectif des modèles grâce à un système de score Elo.

Ce système, utilisé dans des domaines comme les échecs ou l’esport, fonctionne comme une cote évolutive. Lorsqu’un modèle bat un adversaire avec un score Elo plus élevé, il gagne des points ; en cas de défaite face à un adversaire supposément plus faible, il en perd. Cette approche est particulièrement adaptée à un système de duels, car elle reflète la probabilité qu’un modèle remporte ses futures confrontations.

Sujets liés :