Benchmarks IA : les évaluations des modèles traversent une crise de crédibilité
À chaque sortie de modèle, les éditeurs de modèles d’IA brandissent des scores de benchmarks, toujours plus élevés. Mais ces évaluations sont de plus en plus contestées par la communauté scientifique, ainsi que par leurs créateurs eux-mêmes.
À chaque sortie de modèle, OpenAI, Google ou Anthropic brandissent des tableaux de scores pour prouver leur supériorité. Mais ces évaluations sont de plus en plus contestées par la communauté scientifique, entre contamination des données, gaming des classements et saturation des tests… État des lieux d’une crise de crédibilité dans cette industrie en construction.
La course aux scores, moteur marketing de l’IA
Le rituel est désormais bien rodé. À chaque lancement de modèle, les labs d’intelligence artificielle publient un ou des tableaux comparatifs censés démontrer leurs performances sur une batterie de benchmarks : MMLU pour le raisonnement général, SWE-bench pour le code, GPQA pour les sciences, LMArena (devenue sobrement Arena) pour les préférences utilisateurs. Ces acronymes sont devenus le langage commun de la compétition entre OpenAI, Google, Anthropic, Meta, xAI et consorts. Chaque dixième de point gagné fait l’objet d’un paragraphe dédié, chaque première place est revendiquée comme une victoire technologique.
Ces scores ne sont pas qu’un argument marketing. Ils orientent les décisions d’investissement, influencent les choix technologiques des entreprises et pèsent même dans la régulation. L’AI Act européen fait référence aux benchmarks comme outil pour déterminer si un modèle présente un « risque systémique ». Comme le soulignait Anka Reuel, chercheuse à Stanford, dans le MIT Technology Review : « On crée potentiellement un faux sentiment de sécurité avec les benchmarks s’ils ne sont pas bien conçus, surtout pour les cas d’usage à haut risque. On peut avoir l’impression qu’un modèle est sûr, alors que ce n’est pas le cas. » Reste que la fiabilité de ces évaluations est aujourd’hui sérieusement remise en question.
Des tests de plus en plus faciles à contourner
Les problèmes identifiés par la communauté scientifique sont multiples, mais trois mécanismes principaux minent la crédibilité des benchmarks actuels.
La contamination des données d’entraînement
C’est le problème le plus documenté. Tout récemment, OpenAI a annoncé cesser de publier ses résultats sur SWE-bench Verified, un benchmark de référence en codage que le lab avait lui-même créé en 2024. En cause, l’entraînement des modèles a eu lieu sur les données du test. L’équipe d’OpenAI a démontré que GPT-5.2, Claude Opus 4.5 et Gemini 3 Flash Preview étaient tous capables de reproduire de mémoire les correctifs humains originaux utilisés comme référence. L’un des exemples les plus frappants montre GPT-5.2 recrachant quasi mot pour mot un patch de code Django, simplement à partir de l’identifiant de la tâche. OpenAI en conclut que les progrès sur ce benchmark « ne reflètent plus des améliorations réelles dans les capacités de développement logiciel des modèles, mais plutôt leur degré d’exposition au benchmark pendant l’entraînement ».
Le « gaming » des classements
En avril 2025, une étude menée par Cohere, Stanford, MIT et l’Allen Institute for AI, sur les classements de la LMArena illustre un autre type de dérive. Les chercheurs ont mis en lumière les pratiques de certains labs, dont Meta, OpenAI et Google, qui bénéficiaient d’un accès privilégié à la plateforme censée classer à l’aveugle selon les préférences des utilisateurs les différents modèles d’IA. Meta aurait ainsi testé 27 variantes privées de ses modèles avant le lancement de Llama 4, pour ne publier que le score du meilleur. Quelques jours plus tôt, des chercheurs avaient déjà remarqué que la version de Maverick (Llama 4) soumise au classement était une version « optimisée pour la conversationnalité », différente de celle mise à disposition des développeurs. Ben Dickson, journaliste spécialisé IA, résumait le problème sur TechTalks en invoquant la loi de Goodhart : « Quand une mesure devient un objectif, elle cesse d’être une bonne mesure. »
Les développeurs de ces modèles ont tendance à optimiser leurs performances en fonction de ces benchmarks spécifiques, explique dans MIT Technology Review Anna Ivanova, professeure de psychologie au Georgia Institute of Technology et directrice de son laboratoire Langage, Intelligence et Pensée (LIT).
La saturation rapide des tests
Il existe un dernier problème structurel. Les benchmarks deviennent obsolètes à une vitesse inédite. MMLU, longtemps considéré comme la référence en raisonnement général, voit désormais les modèles frontier (d’avant-garde, ndlr) dépasser des scores de 90 % de réussite. Selon le rapport annuel 2025 de Stanford HAI, les scores sur des benchmarks comme MMMU, GPQA et SWE-bench ont bondi de 18,8, 48,9 et 67,3 points de pourcentage seulement un an après leur introduction. Même Humanity’s Last Exam (HLE), un benchmark conçu pour être « le dernier examen académique » avec 2 500 questions de niveau doctorat, voit déjà ses scores progresser rapidement, de maigres pourcents à près de 30 % en quelques mois seulement.
Ce que mesurent vraiment les benchmarks (et ce qu’ils ne mesurent pas)
Au-delà des failles techniques, c’est la pertinence même de ces évaluations qui est interrogée. En novembre 2025, une étude de l’Oxford Internet Institute portant sur 445 benchmarks majeurs a conclu que ces tests surestiment régulièrement les performances des modèles et manquent de rigueur scientifique. L’un des co-auteurs, Andrew Bean, résumait ainsi le problème à NBC News : « Il faut vraiment prendre avec un grain de sel les affirmations du type « un modèle atteint un niveau d’intelligence de doctorat ». Nous ne sommes pas certains que ces mesures soient faites de manière particulièrement rigoureuse. »
Le décalage entre les scores et la réalité terrain est parfois saisissant. Sur SWE-bench Verified, les meilleurs modèles affichent environ 80 % de réussite sur des tâches de codage. Sur SWE-Lancer, qui évalue les mêmes modèles sur de vraies missions freelance, le taux de réussite tombe à 26,2 %. Comme le notait David Widder, chercheur à Cornell, dans TechCrunch, nombre de compétences évaluées par les benchmarks courants, qu’il s’agisse de résoudre des problèmes de mathématiques de niveau doctoral ou de détecter un anachronisme dans une phrase, ne seront jamais pertinentes pour la majorité des utilisateurs.
Avec la perception croissante des systèmes comme étant à usage général, cette approche devient moins pertinente, juge David Widder.
Vers de nouvelles méthodes d’évaluation ?
Face à ces constats, plusieurs pistes émergent. OpenAI recommande désormais SWE-bench Pro, une version renforcée et moins contaminée du benchmark pour le code. Les performances y chutent drastiquement, avec les meilleurs modèles qui plafonnent autour de 23 %, contre 80 % sur la version Verified. Le lab investit également dans GDPVal, un système d’évaluation où les tâches sont rédigées par des experts et notées par des évaluateurs humains. Une approche certes plus coûteuse, mais moins vulnérable au « gaming ».
Du côté de l’écosystème open source, Hugging Face a lancé YourBench, un outil permettant aux entreprises de créer leurs propres benchmarks à partir de leurs documents internes. L’idée est de permettre d’évaluer les modèles sur des tâches réellement pertinentes pour leur activité, plutôt que sur des examens académiques génériques. Car pour les professionnels, le vrai benchmark reste leurs propres cas d’usage, le constat sur la pertinence des benchmarks actuels étant de plus en plus partagé dans l’industrie. Les tableaux de scores comparatifs publiés à chaque lancement de modèle méritent donc, au minimum, d’être examinés avec un regard critique. Surtout quand concepteurs du benchmark et éditeurs du modèle se confondent.