IA : les 10 modèles de langage les plus performants en mars 2024
Découvrez les LLM les plus performants selon la Chatbot Arena, un classement Elo ayant recueilli plus de 400 000 contributions.
Depuis l’arrivée de ChatGPT, de nombreux modèles de langage ont été lancés sur le marché de l’intelligence artificielle. L’abondance de l’offre rend la tâche de juger la qualité des différents modèles ardue pour les utilisateurs. Jusqu’à présent, les principales évaluations émanent directement des entreprises, qui sélectionnent des critères favorisant leurs propres technologies.
Pour fournir un repère objectif sur les performances des modèles de langage, la Large Model Systems Organization (LMSYS) a décidé de proposer son propre classement. On fait le point !
Qu’est-ce que la Chatbot Arena ?
La LMSYS est un projet initié par des étudiants de l’Université de Berkeley et soutenu par Hugging Face. Il vise à produire des modèles de langage, développer des interfaces et compiler des ensembles de données pour stimuler la recherche en intelligence artificielle générative. Afin d’offrir une comparaison des diverses options disponibles, LMSYS a mis en place la Chatbot Arena, un espace d’affrontement entre les modèles.
La Chatbot Arena utilise le système d’évaluation Elo, une méthode répandue pour mesurer le niveau des joueurs d’échecs. Concrètement, sur l’interface Hugging Face, les utilisateurs sont amenés à déterminer, parmi deux modèles de langage, le plus performant, sur la base de prompts identiques. Un score est ensuite déterminé, prenant en compte le résultat ainsi que le score initial des modèles.
Top 10 des modèles de langage les plus performants
Après avoir collecté plus de 400 000 contributions, la Chatbot Arena a établi un classement. Et le modèle qui se positionne en tête n’est pas GPT-4, mais Claude 3 Opus, développé par Anthropic et encore indisponible en France. GPT-4 réussit néanmoins à placer deux de ses variantes sur le podium. Gemini Pro, intégré à la version premium du chatbot Gemini, manque de peu le top 3, tandis que Llama 2 (de Meta) se retrouve largement distancé, en 27e position.
Voici les 10 modèles de langage les plus performants selon la Chatbot Arena :
- Claude-3 Opus : 1253 (score Elo)
- GPT-4 1106 : 1251
- GPT-4 0125 : 1248
- Gemini Pro : 1203
- Claude 3 Sonnet : 1198
- GPT-4 0314 : 1185
- Claude 3 Haiku : 1179
- GPT-4 0613 : 1158
- Mistral Large 2402 : 1157
- Qwen1 5-72B Chat : 1148
Comment participer aux votes
Si le projet vous intéresse, il est possible d’y participer vous-même. Pour cela, rendez-vous sur la page Hugging Face de la Chatbot Arena, disponible à cette adresse. Vous aurez alors l’opportunité de comparer deux modèles de langage anonymes en soumettant un prompt unique et en analysant leurs réponses, afin de déterminer celui que vous estimez le plus performant. Si vous ne parvenez pas à les départager, il vous est possible d’acter un match nul ou de continuer la conversation jusqu’à ce qu’un vainqueur se dégage.
Community managers : découvrez les résultats de notre enquête 2025
Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !
Je m'inscris