Close
Sphère de données lumineuse représentant un world model, intelligence artificielle comprenant le monde physique

Les world models vont-ils changer notre rapport à l'intelligence artificielle ?

En mars 2026, Yann LeCun, chercheur français lauréat du prix Turing et fondateur d’AMI Labs, boucle la plus grande levée de fonds seed jamais réalisée par une startup européenne : 1,03 milliard de dollars, pour une valorisation pré-money de 3,5 milliards. Toyota, Nvidia, Samsung et Jeff Bezos sont au tour de table.

Ce qui justifie une telle mise ? Un pari intellectuel défendu depuis des années par LeCun, et désormais financé à grande échelle : les world models — des modèles capables de comprendre le monde physique, là où les LLM se contentent, selon lui, de produire du texte plausible.

Fei-Fei Li, pionnière de la vision par ordinateur et fondatrice de World Labs, résumait ainsi l’ambition : « Si l’IA veut être réellement utile, elle doit comprendre des mondes, pas seulement des mots. »

Une formule qui dit tout — et qui ouvre une question de fond pour toutes les organisations qui investissent aujourd’hui dans l’IA.

Qu’est-ce qu’un world model, en quoi se distingue-t-il des LLM que nous utilisons quotidiennement, et quelles implications concrètes pour les entreprises qui structurent leurs architectures IA ?


Les LLM comprennent-ils vraiment le monde ?

Un LLM (large modèle de langage) est entraîné sur des milliards de textes. Il apprend à prédire la suite la plus plausible d’une séquence de mots. Si le résultat paraît souvent convaincant, c’est parce que les textes humains décrivent abondamment notre réalité : ses règles, sa physique, ses causes et effets.

Mais cette description reste indirecte. Un LLM sait qu’un objet lâché tombe, parce qu’il a lu des milliers de phrases qui le disent. Il ne comprend pas la gravité. Il en a une représentation statistique.

C’est précisément le nœud du problème que pointe Yann LeCun. À la conférence NVIDIA GTC, il déclarait sans ambiguïté : « Les LLM sont trop limités. Les mettre à l’échelle ne nous permettra pas d’atteindre l’AGI. »

Et au World AI Cannes Festival en février 2026 : « Les LLM ne sont pas appropriés » pour construire une IA qui comprend réellement le monde réel.

Ce n’est pas une critique de la qualité des LLM actuels, c’est une critique de leur architecture de fond. Produire du texte plausible et modéliser la réalité physique sont deux objectifs fondamentalement différents.


Qu’est-ce qu’un world model, exactement ?

Un world model part d’une ambition différente : modéliser les règles du monde lui-même. Sa causalité. La dynamique des objets et des situations. Les conséquences des actions dans un environnement physique.

Là où un LLM traite du langage, un world model traite de la réalité.

L’approche défendue par LeCun repose sur une architecture qu’il a développée : JEPA (Joint Embedding Predictive Architecture). L’intuition est proche de celle d’un joueur d’échecs : « On ne lui demande pas de reproduire le monde de façon réaliste, mais d’en saisir la logique », d’anticiper les conséquences d’une action avant de l’exécuter.

Concrètement, le modèle observe des volumes massifs d’images et de vidéos, puis apprend à prédire ce qui vient ensuite, sans annotation humaine systématique. Au fil des expositions, il déduit les règles qui gouvernent les situations : qu’un verre qui tombe se brise, qu’une balle rebondit différemment selon la surface, qu’une porte ne s’ouvre que dans un sens.


Trois écoles, une intuition commune — comment construire un world model ?

Aucun consensus n’existe encore sur l’approche la plus efficace. Trois figures majeures incarnent des visions distinctes.

Yann LeCun (AMI Labs) défend la carte mentale abstraite : comprendre la logique d’une situation pour pouvoir anticiper et planifier, sans avoir à en reconstruire l’apparence. JEPA, son architecture phare, s’entraîne à prédire le sens d’une situation plutôt qu’à en imiter les pixels.

Fei-Fei Li (World Labs) mise sur l’intelligence spatiale : l’IA doit percevoir le monde comme un espace tridimensionnel réel, dans lequel elle peut se déplacer et observer les objets sous différents angles. Sa plateforme Marble, lancée en novembre 2025, génère déjà des environnements 3D navigables à partir de textes, d’images ou de vidéos. « Les modèles mondiaux joueront un rôle déterminant dans la résolution du problème des données pour la robotique », écrit-elle dans son manifeste.

Demis Hassabis (Google DeepMind) conçoit le world model comme un simulateur — un terrain d’entraînement où l’IA accumule des expériences sans conséquences réelles, avant d’agir dans le monde physique. Une approche plus proche des techniques de reinforcement learning que des deux précédentes.

Trois écoles, une intuition commune : pour agir efficacement dans le monde, une IA a besoin d’un modèle interne de ce monde, pas seulement d’une description textuelle de celui-ci.


Quelles applications concrètes pour les entreprises ?

Les world models ne remplaceront pas demain vos outils d’IA générative. Leurs applications naturelles sont industrielles et physiques, et c’est là qu’ils changent réellement la donne :

  • Robotique : un robot capable d’anticiper les conséquences de ses gestes dans un environnement non structuré, entrepôt, chantier, salle d’opération, sans avoir besoin d’être reprogrammé pour chaque configuration nouvelle.
  • Véhicules autonomes : comprendre la dynamique d’une intersection en temps réel, anticiper le comportement d’un piéton, adapter la trajectoire à des conditions imprévues que les données d’entraînement ne couvraient pas.
  • Simulation industrielle : tester des configurations de lignes de production, réduire les coûts de mise en production, former des opérateurs sur des jumeaux numériques qui se comportent de façon physiquement cohérente.
  • Formation immersive et jeux vidéo : générer des environnements d’entraînement crédibles pour des situations de crise, des gestes chirurgicaux, des scénarios de sécurité, avec une physique qui tient la route.

World models et IA agentique : pourquoi la combinaison est décisive ?

Les agents IA, ces systèmes capables d’enchaîner des actions autonomes pour accomplir une tâche complexe, sont aujourd’hui limités par un facteur structurel : ils ne modélisent pas les conséquences de leurs actions. Ils agissent, observent le résultat, corrigent. Une boucle lente, coûteuse, et parfois risquée dans des environnements physiques.

Un agent couplé à un world model peut anticiper avant d’agir. Il simule mentalement plusieurs scénarios, évalue les conséquences probables, choisit l’action la plus adaptée. L’autonomie décisionnelle change de nature, et de niveau.

C’est précisément ce qui rend cette combinaison stratégique pour les secteurs où l’erreur a un coût élevé : industrie, santé, logistique, sécurité. Et c’est aussi ce qui pose des questions légitimes sur le contrôle humain de ces systèmes, leur auditabilité, leur conformité à l’IA Act, dont les dispositions les plus contraignantes entrent en vigueur en août 2026.


World models et LLM : concurrents ou complémentaires ?

La question mérite d’être posée clairement, parce qu’elle oriente les choix d’investissement. En réalité, les deux approches ne s’adressent pas aux mêmes problèmes.

Un LLM excelle dans tout ce qui touche au langage : synthèse, génération de contenu, raisonnement sur des données textuelles, interaction conversationnelle. Un world model excelle dans tout ce qui touche à l’action dans un environnement physique ou simulé.

Les architectures hybrides, LLM pour l’interface et le raisonnement langagier, world model pour la modélisation de l’environnement, semblent être la direction vers laquelle convergent les acteurs les plus avancés. L’enjeu n’est pas de choisir entre les deux. C’est de comprendre lequel répond à quel problème, et de ne pas surinvestir dans une technologie dont les bénéfices opérationnels sont encore à 12, 24 ou 36 mois selon les secteurs.


Ce que les entreprises doivent retenir aujourd’hui

Les world models ne remplaceront pas les LLM à court terme. Mais ils signalent quelque chose d’important : l’IA sort progressivement de la sphère du langage pour entrer dans celle de l’action physique. Et cette bascule se finance à des niveaux qui indiquent que les premières applications industrielles sont proches.

Pour les secteurs fortement ancrés dans des processus matériels, industrie, logistique, santé, formation technique, cette évolution mérite d’être suivie de près. Non pas pour anticiper un déploiement immédiat, mais pour calibrer les architectures actuelles de façon à les rendre compatibles avec ce qui vient.