Les 10 modèles d’IA les plus performants en octobre 2024
Ce mois-ci, OpenAI place ses technologies aux trois premières positions de la Chatbot Arena, tandis que deux modèles chinois s’invitent dans le top 10.
OpenAI continue d’asseoir sa domination sur le marché de l’IA générative, plaçant ses modèles les plus récents aux trois premières places de la Chatbot Arena, un classement réputé pour évaluer objectivement les performances des modèles grâce aux contributions des utilisateurs.
Les 10 modèles de langage les plus performants en octobre 2024
Comme en septembre, les modèles GPT-4o, o1-preview et o1-mini occupent les trois premières positions de la Chatbot Arena. La seule évolution notable ? La prise de pouvoir de GPT-4o, le modèle phare d’OpenAI, dont les performances surpassent désormais celles de o1-preview, qui excelle dans les environnements complexes et dans le traitement d’une grande quantité de données. Les grands modèles de langage (LLM) de la firme de San Francisco, désormais valorisée à 157 milliards de dollars suite à une nouvelle levée de fonds, devancent deux versions de Gemini 1.5 Pro. Le modèle Grok-2, qui alimente l’agent éponyme disponible sur X, suit en sixième position.
Mais la principale évolution dans le classement se situe ailleurs. En octobre 2024, Yi Lightning et GLM-4-Plus, deux modèles d’origine chinoise, s’immiscent dans le top 10, occupant respectivement les 7e et 9e places. Encore peu documenté, le modèle Yi Lightning, développé par l’entreprise 01.ai, intègre le classement malgré un entraînement sur un volume de données plus réduit, contextualise le Financial Times. Fondée par Kai-Fu Lee, un ingénieur taïwanais notamment passé par Apple, Microsoft et Google, l’entreprise 01.ai avait déjà réussi à placer son modèle Yi Large dans ce classement quelques mois auparavant.
Avec l’arrivée des modèles chinois dans le top 10, plusieurs grands acteurs en sont désormais absents. Ce mois-ci, Anthropic, Meta et Mistral AI n’ont pas réussi à positionner l’une de leurs technologies dans la première partie de tableau de la Chatbot Arena.
Looking back at the history of @lmarena_ai scores
CC:@altryne @Scobleizer @btibor91 @swyx@8teAPi @kimmonismus @aidan_mclau pic.twitter.com/4Ip9Lxxxs6
— AmebaGPT (@amebagpt) October 19, 2024
Pour afficher ce contenu issu des réseaux sociaux, vous devez accepter les cookies et traceurs publicitaires.
Ces cookies et traceurs permettent à nos partenaires de vous proposer des publicités et des contenus personnalisés en fonction de votre navigation, de votre profil et de vos centres d’intérêt.Plus d’infos.
Voici le classement des modèles de langage les plus performants en octobre 2024 :
- ChatGPT 4o Latest : 1 339 (Score Elo)
- o1-preview : 1 335
- o1-mini : 1313
- Gemini 1.5 Pro : 1 305
- Gemini 1.5 Pro 0827 : 1 299
- Grok-2 0813 : 1 291
- Yi Lightning : 1 287
- GPT-4o 0513 : 1 285
- GLM-4-Plus : 1 274
- GPT-4o mini 0718 : 1 274
Quels sont les critères de classement de la Chatbot Arena ?
Conçue par des étudiants et des chercheurs de l’Université de Berkeley, aux États-Unis, la Chatbot Arena propose une alternative aux méthodes d’évaluation internes des entreprises spécialisées dans l’intelligence artificielle, souvent jugées biaisées ou opaques. Pour classer objectivement les modèles de langage selon leur niveau de performance, elle organise des duels arbitrés par les humains. Sur la plateforme, accessible à tous, les utilisateurs sont invités à départager deux modèles dont l’identité leur est dissimulée, en choisissant celui qui répond le plus précisément à la requête.
Chaque modèle reçoit un score Elo basé sur ses performances, qui évolue au fil des confrontations. Le système Elo fonctionne de la manière suivante : lorsqu’un modèle gagne contre un adversaire avec un score Elo plus élevé, il accumule des points, tandis qu’il en perd lorsqu’il subit une défaite contre un adversaire supposément plus faible. Largement adopté dans les milieux de l’esport et des échecs, le système Elo est calibré pour un système reposant sur les duels, car il permet de prédire l’issue des prochains matchs.
Community managers : découvrez les résultats de notre enquête 2025
Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !
Je m'inscris