IA : les 10 modèles de langage les plus performants en avril 2024

Suite au déploiement d’une mise à jour, GPT-4 Turbo redevient le modèle de langage le plus performant du marché, selon la Chatbot Arena.

Grâce à sa dernière mise à jour, GPT-4 Turbo est le modèle de langage le plus performant au mois d'avril 2024. © LMSYS

Pour aider les utilisateurs à évaluer la qualité des grands modèles de langage (LLM) disponibles sur le marché, la Large Model Systems Organization (LMSYS), composée d’étudiants et de chercheurs de l’Université de Berkeley, aux États-Unis, a lancé la Chatbot Arena. Soutenu par Hugging Face et déployé en mars 2024, ce projet vise à classer objectivement les LLM, tels que GPT-4, Claude 3 ou Llama-3, en s’appuyant sur les avis d’utilisateurs. Concrètement, il est demandé aux visiteurs de la plateforme de déterminer, parmi deux modèles de langage, celui qui semble être le plus performant sur la base d’un prompt identique. Après un mois, la Chatbot Arena a déjà recueilli 800 000 contributions, ce qui permet de déceler quelques tendances.

Les 10 modèles de langage les plus performants en avril 2024

Fin mars, la Chatbot Arena avait déjà recueilli plus de 400 000 contributions et c’était Claude 3 Opus qui, à la surprise générale, se positionnait en tête du classement. Encore indisponible en France, le modèle d’Anthropic devançait deux itérations de GPT-4, conçues par OpenAI, et Gemini Pro, développé par Google. Mais suite au déploiement, mi-avril, d’une mise à jour de GPT-4 Turbo, le grand modèle de langage d’OpenAI retrouve sa couronne. Ce mois-ci, GPT-4 Turbo, dont les capacités « en écriture, en mathématiques, en raisonnement logique et en code » ont été largement améliorées selon sa société créatrice, truste la première place, devant GPT-4 et Claude 3 Opus.

Pour afficher ce contenu issu des réseaux sociaux, vous devez accepter les cookies et traceurs publicitaires.

Ces cookies et traceurs permettent à nos partenaires de vous proposer des publicités et des contenus personnalisés en fonction de votre navigation, de votre profil et de vos centres d’intérêt.Plus d’infos.

Accepter

Dans le reste du classement, on observe un recul de Mistral Large. Conçu par l’entreprise française Mistral AI, le LLM qui propulse l’agent conversationnel Le Chat passe de la septième à la treizième place. L’autre évolution majeure concerne Llama 3, qui pointe à la sixième place du classement. Dévoilé ce mois-ci par Meta, ce grand modèle de langage alimente notamment l’agent conversationnel Meta AI, graduellement déployé sur WhatsApp, Instagram ou Facebook dans 13 pays anglophones. L’itération précédente, Llama-2, se plaçait en 27e position le mois dernier.

Voici la liste des modèles de langage (LLM) les plus performants en avril 2024, selon la Chatbot Arena :

  1. GPT-4 Turbo : 1 257 (score Elo)
  2. GPT-4 1106 : 1 253
  3. Claude 3 Opus : 1 251
  4. Gemini 1.5 Pro : 1 248
  5. GPT-4 0125 : 1 247
  6. Bard (Gemini Pro) : 1 209
  7. Llama-3 : 1 207
  8. Claude 3 Sonnet : 1 202
  9. Command R+ : 1 192
  10. GPT-4 0314 : 1 189

Accéder au classement complet

Comment la Chatbot Arena classe-t-elle les modèles de langage ?

La Chatbot Arena adopte le principe du classement Elo : un système d’évaluation historiquement utilisé pour classer les joueurs d’échecs ou de Go mais qui s’est, depuis plusieurs années, démocratisé dans les jeux compétitifs en ligne tels que League of Legends ou Starcraft. Le principe est le suivant : chaque modèle de langage se voit attribuer une cote, soit l’équivalent d’un classement provisoire. Celui-ci est déterminé en fonction de son score attribué à partir de ses précédentes confrontations, et du score des concurrents auxquels il est confronté.

En d’autres termes, si, lors d’un match, un modèle de langage parvient à vaincre un adversaire dont le score est plus élevé, il gagnera des points Elo ; s’il réalise une contre-performance contre un modèle dont l’Elo est plus faible, il en perdra. « La différence de classement permet de prédire l’issue du match, détaillent les porteurs du projet LMSYS. Le système de notation Elo est approprié, étant donné que nous avons plusieurs modèles et que nous mettons en place des duels ».

Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Visuel enquête Visuel enquête

Community managers : découvrez les résultats de notre enquête 2025

Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !

Je m'inscris

Les meilleurs outils pour les professionnels du web