Les 10 modèles d’IA les plus performants en octobre 2024

Ce mois-ci, OpenAI place ses technologies aux trois premières positions de la Chatbot Arena, tandis que deux modèles chinois s’invitent dans le top 10.

Plusieurs acteurs majeurs de l'IA, dont Meta ou Anthropic, ne figurent plus dans le top 10. © LMSYS

OpenAI continue d’asseoir sa domination sur le marché de l’IA générative, plaçant ses modèles les plus récents aux trois premières places de la Chatbot Arena, un classement réputé pour évaluer objectivement les performances des modèles grâce aux contributions des utilisateurs.

Les 10 modèles de langage les plus performants en octobre 2024

Comme en septembre, les modèles GPT-4o, o1-preview et o1-mini occupent les trois premières positions de la Chatbot Arena. La seule évolution notable ? La prise de pouvoir de GPT-4o, le modèle phare d’OpenAI, dont les performances surpassent désormais celles de o1-preview, qui excelle dans les environnements complexes et dans le traitement d’une grande quantité de données. Les grands modèles de langage (LLM) de la firme de San Francisco, désormais valorisée à 157 milliards de dollars suite à une nouvelle levée de fonds, devancent deux versions de Gemini 1.5 Pro. Le modèle Grok-2, qui alimente l’agent éponyme disponible sur X, suit en sixième position.

Mais la principale évolution dans le classement se situe ailleurs. En octobre 2024, Yi Lightning et GLM-4-Plus, deux modèles d’origine chinoise, s’immiscent dans le top 10, occupant respectivement les 7e et 9e places. Encore peu documenté, le modèle Yi Lightning, développé par l’entreprise 01.ai, intègre le classement malgré un entraînement sur un volume de données plus réduit, contextualise le Financial Times. Fondée par Kai-Fu Lee, un ingénieur taïwanais notamment passé par Apple, Microsoft et Google, l’entreprise 01.ai avait déjà réussi à placer son modèle Yi Large dans ce classement quelques mois auparavant.

Avec l’arrivée des modèles chinois dans le top 10, plusieurs grands acteurs en sont désormais absents. Ce mois-ci, Anthropic, Meta et Mistral AI n’ont pas réussi à positionner l’une de leurs technologies dans la première partie de tableau de la Chatbot Arena.

Looking back at the history of @lmarena_ai scores

CC:@altryne @Scobleizer @btibor91 @swyx @8teAPi @kimmonismus @aidan_mclau pic.twitter.com/4Ip9Lxxxs6

— AmebaGPT (@amebagpt) October 19, 2024

Pour afficher ce contenu issu des réseaux sociaux, vous devez accepter les cookies et traceurs publicitaires.

Ces cookies et traceurs permettent à nos partenaires de vous proposer des publicités et des contenus personnalisés en fonction de votre navigation, de votre profil et de vos centres d’intérêt.Plus d’infos.

Accepter

Voici le classement des modèles de langage les plus performants en octobre 2024 :

ChatGPT 4o Latest : 1 339 (Score Elo)
o1-preview : 1 335
o1-mini : 1313
Gemini 1.5 Pro : 1 305
Gemini 1.5 Pro 0827 : 1 299
Grok-2 0813 : 1 291
Yi Lightning : 1 287
GPT-4o 0513 : 1 285
GLM-4-Plus : 1 274
GPT-4o mini 0718 : 1 274

Accéder au classement complet

Quels sont les critères de classement de la Chatbot Arena ?

Conçue par des étudiants et des chercheurs de l’Université de Berkeley, aux États-Unis, la Chatbot Arena propose une alternative aux méthodes d’évaluation internes des entreprises spécialisées dans l’intelligence artificielle, souvent jugées biaisées ou opaques. Pour classer objectivement les modèles de langage selon leur niveau de performance, elle organise des duels arbitrés par les humains. Sur la plateforme, accessible à tous, les utilisateurs sont invités à départager deux modèles dont l’identité leur est dissimulée, en choisissant celui qui répond le plus précisément à la requête.

Chaque modèle reçoit un score Elo basé sur ses performances, qui évolue au fil des confrontations. Le système Elo fonctionne de la manière suivante : lorsqu’un modèle gagne contre un adversaire avec un score Elo plus élevé, il accumule des points, tandis qu’il en perd lorsqu’il subit une défaite contre un adversaire supposément plus faible. Largement adopté dans les milieux de l’esport et des échecs, le système Elo est calibré pour un système reposant sur les duels, car il permet de prédire l’issue des prochains matchs.

Sujets liés :

Publier un commentaire

Ajouter un commentaire

Partagez votre meilleur prompt IA

Et accédez très bientôt à notre sélection des meilleurs prompts !

Je participe

Les meilleurs outils pour les professionnels du web

Norton Small Business

Antivirus

Une solution d'antivirus dédiée aux TPE et PME

ManageEngine Log360

SIEM

Un SIEM complet pour centraliser les événements de sécurité

Mr Suricate

Test automatisé

Une solution de test automatisé pour détecter les bugs facilement