IA : les 10 modèles de langage les plus performants en mars 2024

Découvrez les LLM les plus performants selon la Chatbot Arena, un classement Elo ayant recueilli plus de 400 000 contributions.

Selon la Chatbot Arena, Claude-3 Opus est le modèle de langage le plus performant actuellement. © LMSYS

Sommaire

Depuis l’arrivée de ChatGPT, de nombreux modèles de langage ont été lancés sur le marché de l’intelligence artificielle. L’abondance de l’offre rend la tâche de juger la qualité des différents modèles ardue pour les utilisateurs. Jusqu’à présent, les principales évaluations émanent directement des entreprises, qui sélectionnent des critères favorisant leurs propres technologies.

Pour fournir un repère objectif sur les performances des modèles de langage, la Large Model Systems Organization (LMSYS) a décidé de proposer son propre classement. On fait le point !

Qu’est-ce que la Chatbot Arena ?

La LMSYS est un projet initié par des étudiants de l’Université de Berkeley et soutenu par Hugging Face. Il vise à produire des modèles de langage, développer des interfaces et compiler des ensembles de données pour stimuler la recherche en intelligence artificielle générative. Afin d’offrir une comparaison des diverses options disponibles, LMSYS a mis en place la Chatbot Arena, un espace d’affrontement entre les modèles.

La Chatbot Arena utilise le système d’évaluation Elo, une méthode répandue pour mesurer le niveau des joueurs d’échecs. Concrètement, sur l’interface Hugging Face, les utilisateurs sont amenés à déterminer, parmi deux modèles de langage, le plus performant, sur la base de prompts identiques. Un score est ensuite déterminé, prenant en compte le résultat ainsi que le score initial des modèles.

Top 10 des modèles de langage les plus performants

Après avoir collecté plus de 400 000 contributions, la Chatbot Arena a établi un classement. Et le modèle qui se positionne en tête n’est pas GPT-4, mais Claude 3 Opus, développé par Anthropic et encore indisponible en France. GPT-4 réussit néanmoins à placer deux de ses variantes sur le podium. Gemini Pro, intégré à la version premium du chatbot Gemini, manque de peu le top 3, tandis que Llama 2 (de Meta) se retrouve largement distancé, en 27e position.

Voici les 10 modèles de langage les plus performants selon la Chatbot Arena :

Claude-3 Opus : 1253 (score Elo)
GPT-4 1106 : 1251
GPT-4 0125 : 1248
Gemini Pro : 1203
Claude 3 Sonnet : 1198
GPT-4 0314 : 1185
Claude 3 Haiku : 1179
GPT-4 0613 : 1158
Mistral Large 2402 : 1157
Qwen1 5-72B Chat : 1148

Voir le classement complet

Comment participer aux votes

Si le projet vous intéresse, il est possible d’y participer vous-même. Pour cela, rendez-vous sur la page Hugging Face de la Chatbot Arena, disponible à cette adresse. Vous aurez alors l’opportunité de comparer deux modèles de langage anonymes en soumettant un prompt unique et en analysant leurs réponses, afin de déterminer celui que vous estimez le plus performant. Si vous ne parvenez pas à les départager, il vous est possible d’acter un match nul ou de continuer la conversation jusqu’à ce qu’un vainqueur se dégage.