IA : les 10 modèles de langage les plus performants en mai 2024

Déployé au mois de mai, GPT-4o est le modèle le plus performant sur le marché, d’après la Chatbot Arena.

GPT-4o, qui peut être testé gratuitement par les utilisateurs, domine la Chatbot Arena en mai 2024. © LMSYS

Conçue par la Large Model Systems Organization (LMSYS), un organisme composé d’étudiants et de chercheurs de l’Université de Berkeley, aux États-Unis, la Chatbot Arena s’attache à classer les modèles de langage (LLM) disponibles sur le marché. Évoluant en temps réel, ce classement, basé sur le système d’évaluation Elo (voir plus bas), s’appuie sur des avis d’utilisateurs. Ceux-ci sont invités à jauger, sur la base d’un prompt identique, quel modèle répond le plus précisément à leur requête. Le projet, soutenu par Hugging Face, a déjà enregistré plus d’un million de contributions. Quels sont les modèles qui se distinguent ce mois-ci ? On fait le point.

Les 10 modèles de langage les plus performants en mai 2024

C’était prévisible : le modèle GPT-4o, déployé en mai, fait une entrée fracassante dans le classement. Capable de traiter nativement plusieurs formats et affichant des performances inégalées dans plusieurs domaines, tels que la vidéo ou la voix, GPT-4o se hisse directement à la première place. Il devance GPT-4 Turbo, qui occupait cette position en avril, et l’itération la plus récente de GPT-4. Déjà au pied du podium en avril, Gemini Pro, développé par Google, conserve sa position.

Super cool visualization — credit to the creator Peter Gostev! https://t.co/xUK7hD7miz

— lmsys.org (@lmsysorg) May 23, 2024

Pour afficher ce contenu issu des réseaux sociaux, vous devez accepter les cookies et traceurs publicitaires.

Ces cookies et traceurs permettent à nos partenaires de vous proposer des publicités et des contenus personnalisés en fonction de votre navigation, de votre profil et de vos centres d’intérêt.Plus d’infos.

Accepter

La domination des technologies développées par OpenAI se traduit, de manière assez logique, par un recul de ses principaux concurrents, notamment des grands modèles de langage conçus par Anthropic : Claude 3 Opus et Claude 3 Sonnet – qui propulsent l’agent conversationnel Claude tout juste déployé en France – perdent chacun deux places. Dans le reste du classement, on assiste à un recul de Llama 3, alimentant Meta AI, le chatbot intégré à Facebook, Instagram et WhatsApp qui pourrait bientôt débarquer sur le marché européen. On notera également l’arrivée de Yi, un grand modèle de langage développé par l’entreprise chinoise 01.AI.

Découvrez, ci-dessous, le classement des grands modèles de langage (LLM) les plus performants en mai 2024 :

GPT-4o : 1287 (score Elo)
GPT-4 Turbo : 1252
GPT-4 1106 : 1250
Gemini 1.5 Pro : 1248
Claude 3 Opus : 1246
GPT-4 0125 : 1244
Yi Large : 1236
Bard (Gemini Pro) : 1208
Llama 3 : 1203
Claude 3 Sonnet : 1199

Accéder au classement complet

Les critères de classement de la Chatbot Arena

Pour hiérarchiser objectivement les grands modèles de langage, le Chatbot Arena s’appuie sur le système Elo, notamment employé dans les compétitions d’échec et d’esport. Le principe ? Chaque modèle obtient une cote, soit l’équivalent d’un classement provisoire. Celui-ci évolue en fonction de ses résultats contre d’autres modèles, considérés comme plus ou moins performants sur le papier. Comprenez : si un modèle subit une défaite contre un adversaire ayant un classement Elo inférieur, il perdra des points. Réciproquement, il en gagnera s’il bat un modèle avec un classement Elo supérieur. « La différence de classement permet de prédire l’issue du match, expliquent les créateurs de la Chatbot Arena. Le système de notation Elo est approprié, étant donné que nous avons plusieurs modèles et que nous mettons en place des duels ».

Sujets liés :

Publier un commentaire

Ajouter un commentaire

Évaluez BDM

Simple ou compliqué, ennuyeux ou captivant... nous avons besoin de vous pour améliorer notre site. Quelques minutes suffisent !

Je donne mon avis

Les meilleurs outils pour les professionnels du web

Norton Small Business

Antivirus

Un antivirus pour les petites entreprises

Bitrix24

CRM

Un outil tout-en-un pour la gestion de votre entreprise et vos projets

Dexem Call Tracking

Call tracking

Une solution française de call tracking pour suivre les conversions de vos appels