World models : vers une IA qui comprend le monde ?

Comprendre la gravité, anticiper une situation, agir dans le monde physique : les world models partent d’une logique différente des LLM. Emmanuelle Guyot, Head of Data Science chez Hellowork, décrypte les enjeux, les usages et les limites.

Contrairement aux LLM, les world models cherchent à comprendre la causalité et la dynamique du monde réel. © miloje - stock.adobe.com

Sommaire

En mars 2026, la startup AMI Labs de Yann LeCun levait près de 890 millions d’euros pour développer une IA d’un genre nouveau : les world models. Valorisé 3 milliards d’euros avant même cette levée de fonds, la société parie sur des modèles capables de comprendre réellement le monde physique, là où les LLM se contentent, selon LeCun, de produire du texte plausible. Moins de quatre ans après l’explosion de l’IA générative, une nouvelle révolution est-elle réellement en marche ?

Pour y voir plus clair, nous avons interrogé Emmanuelle Guyot, Head of Data Science au sein du groupe Hellowork (éditeur de BDM). Selon elle, la rupture annoncée est bien réelle, mais se jouera principalement hors des interfaces grand public.

Les world models veulent dépasser les LLM

Les LLM, à l’instar de ChatGPT, Claude et Gemini, ont été entraînés sur des quantités colossales de textes pour produire la suite de mots la plus plausible en réponse à une requête. Ces modèles reposent sur de la prédiction statistique appliquée au langage. Si l’illusion de compréhension est souvent convaincante, c’est parce qu’ils ont ingéré suffisamment de textes décrivant le monde pour en restituer une image cohérente.

Emmanuelle Guyot explique : « Les LLM sont vraiment construits pour donner le texte le plus probable, en termes de sens, qui peut répondre au prompt qu’on lui soumet. Ils ont été entraînés sur tellement de textes qui décrivent notre monde aujourd’hui que le résulat est assez convaincant. Mais ça s’arrête vraiment à l’étape de description. »

Les world models partent d’une ambition radicalement différente. Plutôt que de modéliser le langage, ils cherchent à modéliser le monde lui-même : ses règles physiques, sa causalité, ainsi que la dynamique des objets et des situations.

Un LLM a entendu dans des textes que quand on lâche un objet, il tombe par terre, donc il connaît la gravité de cette manière. Alors qu’un world model, lui, va vraiment comprendre physiquement le concept de gravité.

Emmanuelle Guyot

Head of Data Science, Groupe Hellowork

Comment construit-on un world model ?

De manière concrète, comment apprendre à une machine à comprendre le monde, plutôt qu’à en imiter le langage ? Yann LeCun défend une approche inspirée du développement humain : celle d’un modèle qui apprendrait comme un bébé, en observant son environnement, en accumulant des expériences sensorielles et en déduisant progressivement les règles qui régissent ce qui l’entoure.

Sur le plan architectural, il mise sur une approche spécifique. « On fait observer au modèle énormément d’images, de vidéos ou de situations, puis on lui demande d’anticiper ce qui vient ensuite, sans tout lui annoter à la main. Au fur et à mesure, l’IA apprend les conséquences des actions », résume Emmanuelle Guyot, qui précise que ces modèles ont besoin de bien plus d’images et de vidéos que les LLM pour accéder à ce qui se passe physiquement dans le monde.

Yann LeCun n’est cependant pas le seul à travailler sur la question. Deux autres figures majeures de la recherche en IA, Fei-Fei Li et Demis Hassabis, proposent des approches sensiblement différentes.

Construire un world model : les 3 écoles

À ce stade, aucun consensus n’existe sur la façon la plus efficace de construire un world model, ni sur ce qu’il doit exactement être capable de faire. Trois grandes figures incarnent des approches distinctes.

Yann LeCun (AMI Labs) : pour LeCun, un world model doit fonctionner comme la carte mentale qu’un joueur d’échecs se construit dans son esprit. Il ne s’agit donc pas de reproduire le monde de façon réaliste, mais d’en saisir la logique. Le modèle comprend qu’une action donnée entraîne des conséquences prévisibles. Son architecture phare, JEPA, entraîne l’IA à prédire le sens d’une situation plutôt qu’à en imiter l’apparence, pour lui permettre de raisonner et d’anticiper avant d’agir.
Fei-Fei Li (World Labs) : alors que LeCun mise sur l’abstraction, Li défend une approche plus sensorielle. Pour elle, l’IA doit percevoir le monde comme un espace tridimensionnel réel, dans lequel elle peut se déplacer, observer les objets sous différents angles et comprendre leurs relations spatiales. Un world model, dans cette vision, correspond à une reconstruction fidèle de l’environnement physique.
Demis Hassabis (Google DeepMind) : Hassabis perçoit le world model avant tout comme un terrain d’entraînement. De la même façon qu’un pilote apprend sur simulateur avant de prendre les commandes d’un vrai avion, l’IA s’exerce dans un environnement virtuel, accumule des expériences, fait des erreurs et les corrige, sans aucune conséquence dans le monde réel.

Des usages différents des LLM

Les world models ne suivront vraisemblablement pas la trajectoire de ChatGPT. Là où les LLM répondent à des besoins universels (résumer, rédiger, dialoguer), les world models sont conçus pour anticiper et agir. Des usages par nature plus ciblés, qui ne se prêtent pas à une mise à disposition grand public. « Je pense que ce ne sera pas du tout mis à disposition du grand public comme ça a été le cas des LLM avec ChatGPT en premier. Parce que leur utilisation sera plutôt sous le moteur », anticipe Emmanuelle Guyot. Pour la spécialiste, les cas d’usage devraient donc être avant tout industriels.

Leur travail sera d’anticiper, de prédire, de décider et de prendre des actions. Donc ils seront très adaptés à la robotique ou aux voitures autonomes, mais aussi aux situations immersives comme les jeux vidéo, l’éducation ou la formation. Des cas d’usage où il y a des étapes de compréhension du monde et, au-delà de la compréhension, des actions dans le monde.

Emmanuelle Guyot

Head of Data Science, Groupe Hellowork

D’une certaine manière, les world models pourraient donc suivre un chemin similaire à celui de l’IA pré-ChatGPT : une rupture moins spectaculaire que celle des LLM, mais pas nécessairement moins structurelle. « Ce sera un peu comme avec l’IA d’avant. On la voyait peu, elle était cachée, on ne l’utilisait pas directement mais elle faisait tourner des outils. Donc ça sera caché dans des outils, des objets ou des services qu’on va utiliser. Il n’y aura pas un « world model » qu’on utilisera directement », prédit la head of data science du groupe Hellowork.

Une révolution pour l’IA agentique ?

Cela signifie-t-il pour autant que l’impact des world models sur le quotidien des professionnels du digital sera moindre ? Pas nécessairement, pour Emmanuelle Guyot. Car si les world models ne se présenteront pas sous forme d’interface grand public, ils pourraient représenter un atout considérable en matière d’automatisation. « Il y a quand même tout le volet agentique. Avec les world models, les professionnels pourront dire : ‘voilà ton objectif, voilà ton environnement, débrouille-toi’. L’IA pourra analyser la situation, prendre des décisions et agir », avance Emmanuelle Guyot.

Avec les LLM, les agents IA existent déjà, mais leur autonomie reste limitée. Les world models pourraient changer la donne en profondeur : un agent capable de comprendre réellement son environnement, d’anticiper les effets de ses actions et de planifier en conséquence représente un saut qualitatif important par rapport aux assistants actuels.

Les world models ont vocation à avoir beaucoup plus d’autonomie, beaucoup plus de responsabilités. Et tous ces agents qui prennent des décisions et qui agissent, ça peut impacter toutes les industries.

Emmanuelle Guyot

Head of Data Science, Groupe Hellowork

Les risques d’une IA qui comprend le monde et les gens

Avec les LLM, l’humain reste quasi-systématiquement dans la boucle. Il lit ce que le modèle produit, l’évalue, et décide d’y accorder crédit ou non. Avec les world models, cette interface disparaît en partie. « Là où ça devient plus dangereux, c’est qu’il n’y a potentiellement plus d’interface entre ce qu’ils décident et nous. Avec les LLM, charge à nous humains de contrôler et de croire ou non ce qui est dit. Avec les world models, puisque l’objectif c’est qu’ils puissent prendre des décisions réfléchies et agir, ils prennent une certaine autonomie et une responsabilité que nous ne pourrons plus forcément contrôler », explique Emmanuelle Guyot.

Les conséquences d’une erreur deviennent alors bien plus concrètes. Une mauvaise décision prise par un robot ou un véhicule autonome ne relève pas d’une hallucination que l’on corrige en relisant un texte.

On aura encore plus envie de les croire puisque les world models seront surement présentés comme des LLM qui savent réfléchir et qui comprennent le monde. Donc on leur fera encore plus confiance.

Au-delà de la question de l’autonomie, c’est la profondeur de compréhension des world models qui interroge. Un modèle capable de modéliser non seulement le monde physique, mais aussi les comportements humains, la psychologie et les croyances individuelles représenterait une concentration de connaissances sans précédent. « Il n’existe pas d’humain qui possède toute la connaissance du monde. Alors qu’avec ces world models, l’idée c’est qu’il y aurait une entité qui pourrait tout comprendre », souligne Emmanuelle Guyot. Un terrain particulièrement fertile pour la manipulation et les atteintes à la vie privée.

Quelle perspective pour les world models ?

Faut-il alors anticiper un remplacement progressif des LLM par les world models ? Emmanuelle Guyot ne le croit pas. Les deux approches répondent à des objectifs trop différents pour que l’une efface l’autre. « Les LLM ont pour objectif d’expliquer, de dialoguer, ça fait vraiment le lien avec l’humain. Les world models visent plutôt à anticiper l’évolution d’une situation, à raisonner sur les conséquences, à aider à planifier. Pour moi, cela n’a rien à voir », tranche-t-elle.

La tendance de fond va plutôt vers une complémentarité, voire une fusion des technologies : un module capable de comprendre les instructions en langage naturel, un autre chargé de simuler, d’anticiper et de planifier. Une approche déjà expérimentée par Nvidia avec le projet Cosmos, dont l’objectif est d’accélérer le développement de robots et de véhicules autonomes en combinant un world foundation model pour simuler et prédire le comportement du monde physique avec un composant vision-langage pour interpréter les instructions.

Dans beaucoup d’usages futurs, on aura probablement besoin des deux à la fois : un module qui comprend les consignes humaines en langage naturel, et un autre qui peut se demander « si je fais cela, que se passe-t-il ensuite ? »

Emmanuelle Guyot

Head of Data Science, Groupe Hellowork

Pour de nombreux chercheurs, dont LeCun, les world models ne constituent pas une fin en soi. Ils représentent une étape vers l’intelligence artificielle générale, c’est-à-dire une IA capable de tout faire et de tout comprendre, dont la réalisation repose précisément sur la capacité à raisonner sur le monde, et pas seulement à en parler. Avant d’en voir les premières concrétisations, les obstacles restent considérables : faire apprendre à un modèle l’ensemble des situations, des lois physiques et des dynamiques humaines qui composent le monde réel est un chantier d’une ampleur sans précédent.