Classement : les 10 modèles d’IA les plus performants en juin 2024

Alors que GPT-4o continue de dominer le classement, Gemini poursuit sa ascension et Claude 3.5 Sonnet récupère la deuxième place.

Les versions les plus avancées de Gemini sont désormais plus performantes que GPT-4 Turbo, selon la Chatbot Arena. © LMSYS

Edit du 25 juin 2024 à 14h18 : Claude 3.5 Sonnet, nouveau modèle de langage de la startup Anthropic, intègre le classement. Présenté il y a quelques jours, le concurrent de GPT-4o se hisse en seconde position.

Imaginée par des étudiants et des chercheurs de l’Université de Berkeley, en Californie, et soutenue par Hugging Face, la Chatbot Arena est un projet visant à évaluer les performances des modèles génératifs en temps réel. Pour atteindre cet objectif, elle s’appuie sur les contributions des utilisateurs qui, à partir d’une requête identique, sont invités à départager anonymement deux modèles. Le principe est de communiquer avec les deux agents conversationnels jusqu’à identifier celui qui répond le plus précisément au prompt. Le projet, très populaire, a déjà recueilli plus d’un million de contributions, permettant de révéler certaines tendances sur le marché de l’IA générative.

Les 10 modèles de langage les plus performants en juin 2024

Auparavant dominé par les modèles génératifs d’OpenAI, qui conserve néanmoins la première position avec GPT-4o, introduit en mai et accessible à tous les utilisateurs, le classement de la Chatbot Arena a profondément évolué ce mois-ci. Les troisième, quatrième et cinquième positions sont désormais occupées par différentes versions de Gemini, le modèle d’IA conçu par Google. Elles surpassent GPT-4 Turbo et GPT-4, qui perdent chacun des places en juin. Claude 3 Opus, qui propulse l’agent conversationnel Claude, récemment déployé en Europe, recule de deux positions, à l’inverse de Claude 3.5 Sonnet qui se hisse sur le podium quelques jours après son introduction. Il est également à noter que Llama 3, qui alimente Meta AI dont l’arrivée en Europe a été retardée, quitte la première partie de tableau. Yi Large, le modèle d’origine chinoise, se maintient dans le top 10 malgré une perte de trois places.

Découvrez le classement des modèles de langage (LLM) les plus performants en juin 2024 :

GPT-4o : 1 287 (score Elo)
Claude 3.5 Sonnet : 1272
Gemini Advanced : 1 267
Gemini 1.5 Pro 0514 : 1 263
Gemini 1.5 Pro 0409 : 1 257
GPT-4 Turbo : 1 257
GPT-4 1106 : 1 251
Claude 3 Opus : 1 248
GPT-4 0124 : 1 246
Yi Large : 1 240

Accéder au classement complet

Chatbot Arena : quels sont les critères de classement ?

La Chatbot Arena adopte le système Elo pour classer objectivement les modèles de langage disponibles sur le marché. Couramment utilisé dans les compétitions d’échecs et d’esport, ce système attribue à chaque modèle une cote provisoire, qui évolue en fonction de ses performances. Ainsi, si un modèle sort victorieux d’un affrontement contre un adversaire théoriquement supérieur, il engrange des points. À l’inverse, il en perd s’il est battu par un modèle jugé moins performant. « La différence de classement permet de prédire l’issue du match, détaillent les concepteurs de la Chatbot Arena. Le système de notation Elo est approprié, étant donné que nous avons plusieurs modèles et que nous mettons en place des duels”.

Sujets liés :