Game Arena : Google évalue les IA par le jeu avec une nouvelle plateforme publique

Comme un héritage d’AlphaGo, Google DeepMind déploie la Game Arena sur Kaggle, une plateforme qui doit évaluer les IA par le jeu, en commençant par un premier tournoi d’échecs.

Après un premier tournoi d'exhibition aux échecs, les IA s'affronteront bientôt sur d'autres jeux de stratégie. © Google

Sommaire

Face aux limites des benchmarks traditionnels, Google DeepMind et Kaggle proposent une nouvelle approche d’évaluation des modèles d’IA, en les faisant s’affronter dans des jeux stratégiques. Une initiative open source ambitieuse, inaugurée par un tournoi d’échecs opposant les modèles grand public les plus avancés du moment.

Une plateforme ouverte pour tester l’intelligence stratégique des modèles

Lancée officiellement le 4 août 2025, la plateforme Kaggle Game Arena entend repenser la manière dont les modèles d’IA sont évalués. Fini les jeux de données statiques et les tests à choix multiples, la nouvelle approche consiste à placer les modèles dans des environnements interactifs, des jeux de stratégie, où ils doivent rivaliser en temps réel, avec un objectif clair et une règle du jeu explicite.

Dans un billet publié sur le blog de Google, Kate Olszewska (Google DeepMind) et Meg Risdal (Kaggle) expliquent les limites des benchmarks actuels, souvent saturés et peu discriminants face à des modèles atteignant des scores proches de la perfection. « Sur la voie de l’intelligence générale, nous devons continuer à chercher de nouvelles méthodes d’évaluation », écrivent-elles. Les jeux, eux, offrent un cadre structuré et dynamique, propice à la comparaison entre systèmes.

Tout en continuant d’évoluer et de poursuivre les benchmarks d’IA actuels, nous cherchons constamment à tester de nouvelles approches d’évaluation des modèles. C’est pourquoi nous lançons aujourd’hui Kaggle Game Arena.

Game Arena repose sur une infrastructure totalement open source : environnements de jeu, interfaces d’interaction avec les modèles, visualiseurs, règles et classements. L’ensemble est disponible sur Kaggle, dans un souci de transparence et d’accessibilité pour la communauté.

Pourquoi les jeux sont-ils un bon terrain d’évaluation de l’IA ?

Si DeepMind a déjà montré la valeur des jeux comme benchmark, de ses premiers travaux sur Atari, AlphaGo ou AlphaStar, la Game Arena franchit une nouvelle étape en les intégrant dans un cadre public et comparatif.

« Les jeux fournissent un signal de performance clair et robuste. Ils testent des compétences comme la planification à long terme, l’adaptation à un adversaire et la stratégie dans un contexte incertain », rappellent les équipes de Google. Autre avantage, ils sont « scalables ». Autrement dit, la difficulté s’ajuste automatiquement au niveau de l’opposition.

Les grands modèles de langage actuels ne sont pas conçus pour se spécialiser dans des jeux spécifiques et, par conséquent, ils y jouent beaucoup moins bien.

Pour l’instant, les modèles de langage comme Gemini, Claude ou o4 n’ont pas été conçus pour exceller aux échecs ou au Go, contrairement à des moteurs spécialisés comme Stockfish. Mais c’est précisément ce qui rend l’exercice intéressant, en observant comment ces systèmes, entraînés sur du texte, s’adaptent à des tâches logiques qui exigent structure et patience.

Un premier tournoi d’échecs pour lancer la plateforme

Pour marquer le lancement de Game Arena, Google organise un tournoi d’échecs d’exhibition sur trois jours, du 5 au 7 août. Huit des modèles d’IA les plus avancés du moment, dont Gemini 2.5 Pro (Google), Claude Opus 4 (Anthropic), Grok 4 (xAI), o3 et o4-mini (OpenAI), s’affrontent dans un format à élimination directe. Chaque rencontre se joue en quatre parties maximum, avec un classement final généré par un système « all-play-all » en coulisses, basé sur des centaines de matchs entre chaque paire de modèles.

Les matchs sont diffusés en direct sur Kaggle et YouTube, accompagnés de commentaires de grands noms du monde des échecs comme Hikaru Nakamura, Levy Rozman et Magnus Carlsen. Le tournoi repose sur un « text harness » : les modèles doivent jouer uniquement avec du texte, sans outil externe ni suggestion de coups légaux. Une partie est déclarée perdue si un modèle échoue à proposer un coup valide après trois tentatives.

Suivre le tournoi d’échecs en direct

Un benchmark évolutif et une plateforme pensée pour la communauté

Au-delà de l’événement, la Game Arena a pour but d’être une infrastructure pérenne pour l’évaluation des systèmes d’IA. Le tournoi d’échecs est la première étape d’un projet plus vaste. La plateforme prévoit en effet d’intégrer d’autres jeux, comme le Go, le poker, des jeux vidéo ou encore des simulations en environnement complexe.

Google souligne également que l’initiative est ouverte à la communauté. À terme, chercheurs, laboratoires et développeurs indépendants pourront soumettre leurs propres environnements de jeu et agents IA. « Nous travaillons à fournir l’infrastructure nécessaire pour que chacun puisse proposer ses simulations », annoncent les équipes de Kaggle.

Les performances des modèles seront mises à jour en continu sur des leaderboards publics, disponibles dans la section Benchmarks de Kaggle. Ce classement ne se limite pas à l’instantané, mais se veut un indicateur dynamique et évolutif. En rendant cette évaluation publique et ouverte à toutes et tous, la Game Arena pourrait devenir la nouvelle référence dans le domaine de l’évaluation des IA. Et surtout, un laboratoire grandeur nature pour observer en temps réel comment l’IA apprend à jouer, à gagner… ou à perdre !