;
WEB SIDE STORIES- Site personnel de Guy DERIDET
Web Side Storie
WEB SIDE STORIES

«L'avenir n'est plus ce qu'il était» [Paul Valéry]



L'IA Générative n'est qu'une illusion : les World Models, c'est l'avenir.


Pourquoi les I.A. génératives (LLM) telles que ChatGPT, Claude et Gemini, qui sont actuellement très performantes et utiles, ne représentent-elles que des étapes intermédiaires avant l’avènement de la véritable révolution de l'intelligence artificielle.



L'IA Générative n'est qu'une illusion : Les World Models, c'est l'avenir véritable

 

Pourquoi les I.A génératives (LLM) comme ChatGPT, Claude, Gemini, etc. aussi performantes et utiles soient elles actuellement, ne sont que des étapes transitoires avant la véritable révolution de l'intelligence artificielle.

 


 

Introduction

Nous vivons dans une bulle médiatique. Depuis le succès phénoménal de ChatGPT en 2022, le grand public, les journalistes et même certains experts confondent deux choses fondamentalement différentes : l'intelligence artificielle générative et l'intelligence artificielle « consciente du monde »
 

C'est une confusion dangereuse qui nous détourne de la vraie révolution qui approche.
 

Aujourd'hui, vous parlez à des machines qui sont au fond des « perroquets stochastiques surpuissants » – elles excellent à prédire le mot suivant, mais elles ne comprennent absolument rien au monde physique. Un enfant de trois ans comprend mieux la gravité qu'une IA générative de 100 milliards de paramètres. 
 

Pendant ce temps, dans les labos de recherche, une véritable révolution silencieuse s'opère : celle des world models.
 

Comprendre cette distinction n'est pas un exercice académique. C'est LA clé pour comprendre où va réellement l'IA, et pourquoi l'avenir n'appartient pas à l'IA générative, mais à quelque chose de radicalement différent.
 

 


 

Section 1 : Ce que nous croyons (L'illusion de l'IA générative)

L'IA générative : des prodiges qui ne comprennent rien

Depuis ChatGPT, nous sommes éblouis. L'IA rédige des emails convaincants, crée des images stupéfiantes, code des programmes complexes. Pour beaucoup, c'est DE l'intelligence artificielle réelle. 
 

Erreur fondamentale.
 

Ce que font ces modèles, c'est résoudre un problème statistique massif : prédire le token suivant (le « bout » de texte ou d'image suivant). Pour ce faire, ils absorbent des téraoctets de données et calculent des corrélations monstrueuses entre les éléments. 
 

Le résultat ? Une machine qui simule remarquablement bien ce que pourrait être une réponse intelligente.
 

Le problème ? Elle n'a AUCUNE compréhension causale de la réalité.

Exemples concrets de cette limite :
 

→ Une IA générative peut vous affirmer qu'« un œuf de vache est un mets délicat » parce qu'elle a trouvé cette phrase (ou des variations) dans ses données d'entraînement, sans JAMAIS comprendre que les vaches ne pondent pas d'œufs.
 

→ Elle hallucine des références bibliographiques qui n'existent pas, parce qu'elle « prédit » ce qui ressemblerait à une bonne citation, sans vérifier sa véracité.
 

→ Elle ne peut pas vraiment imaginer comment un objet se déplacerait dans l'espace, ou comment deux objets interagiraient physiquement.
 

→ Elle est incapable de comprendre que si je casse un verre, le verre restera cassé demain. Elle peut en parler, mais elle ne le « sait » pas vraiment.
 

Le chercheur Yann Le Cun (voir fiche en addendum), directeur de la recherche IA chez Meta, l'a bien résumé : ces systèmes sont des « perroquets stochastiques ». Ils parlent bien, mais ils sont creux.
 

Et oui, c'est extraordinaire comme technologie. Mais ce n'est pas l'IA. C'est une simulation d'IA.
 

 


 

Section 2 : Ce qui se prépare (Les World Models)

Les World Models : quand l'IA comprend VRAIMENT le monde

Alors, si l'IA générative n'est pas la « vraie » IA, qu'est-ce qui l'est ?
 

L'idée est simple mais révolutionnaire : au lieu d'apprendre à prédire le token suivant, une IA apprend à construire un MODÈLE INTERNE du monde – une représentation compacte de comment la physique, la causalité et les interactions fonctionnent réellement.
 

Imaginez votre cerveau quand vous traversez la rue. Vous ne calculez pas consciemment la trajectoire de chaque véhicule. Votre cerveau simule mentalement ce qui va se passer : il crée un petit « film » interne de la réalité, dans lequel il teste différents scénarios (« Si je marche vite, je passe ? », « Et si je marche lentement ? »). C'est ça, un world model.

Comment ça fonctionne :

→ L'IA observe d'énormes quantités de vidéos ou de simulations.
 

→ Elle en extrait l'essence : comment les objets se comportent, comment les forces agissent, comment l'espace fonctionne.

→ Elle crée une représentation abstraite et COMPACTE de ces dynamiques.

→ Elle peut ensuite PRÉDIRE ce qui va se passer, non pas en devinant le token suivant, mais en SIMULANT le futur dans son modèle interne.
 

L'avantage ? Un world model « comprend » vraiment. Il sait que la gravité existe. Il sait que les objets rigides ne peuvent pas occuper le même espace. Il sait que si vous versez du café dans une tasse, le café y restera (jusqu'à ce que vous la renversiez).

Exemples réels :

Wayve (startup britannique) utilise des world models pour les véhicules autonomes. Plutôt que de simplement reconnaître « piéton » comme une IA générative le ferait, le world model PRÉDIT comment ce piéton va se déplacer dans les secondes suivantes.
 

Google DeepMind a présenté Genie : une IA qui peut créer un monde virtuel interactif à partir d'UNE SEULE PHOTO. Cela signifie qu'elle a appris les lois de la physique et de la perspective en observant des vidéos.
 

Meta's V-JEPA apprend à comprendre les interactions physiques complexes en regardant simplement des vidéos, sans besoin de millions d'annotations humaines.
 

David Ha et Jürgen Schmidhuber (2018) ont montré qu'une IA dotée d'un world model pouvait apprendre à conduire dans un univers virtuel en s'entraînant PRINCIPALEMENT dans ses propres rêves – des simulations internes – avant d'affronter le vrai monde.
 

C'est une différence de nature, pas seulement de degré.
 

 


 

Section 2.5 : Le piège de la data

Attendre : les world models ne demandent-ils pas ENCORE PLUS de données ?

Vous soulevez probablement cette question : « Mais si les world models sont si futurs, pourquoi ne sont-ils pas déjà partout ? Ils doivent être énormément coûteux en données ! »
 

C'est une bonne intuition. Mais vous tombez dans le même piège que les médias.
 

OUI, les world models demandent BEAUCOUP de données d'entraînement initial. Des pétaoctets de vidéos, des millions d'heures de simulations. C'est vrai.
 

Mais voici le twist que presque personne ne comprend : cela n'a rien à voir avec la vraie comparaison.
 

LA VRAIE QUESTION N'EST PAS : « Combien de données pour entraîner l'IA ? »

LA VRAIE QUESTION EST : « Combien de données réelles il faut après pour que ça marche ? »

C'est là que tout change.

Comparaison réelle de la consommation de data :

Imaginons que vous voulez un robot qui fait le ménage.
 

AVEC L'IA GÉNÉRATIVE :
 

→ Vous l'entraînez sur teraoctets de textes/images de ménage.

→ Vous le déployez dans un vrai appartement.

→ Il casse votre vaisselle (il ne comprenait pas vraiment la fragilité).

→ Vous collectez plus de données d'erreurs.

→ Vous réentraînez... avec des milliers de nouveaux exemples.

→ Vous redéployez. Il fait une autre erreur.

→ Vous reproduisez ce cycle INDÉFINIMENT. Chaque amélioration demande plus de données réelles.
 

C'est parce que l'IA générative ne COMPREND pas vraiment. Elle ne fait que prédire statistiquement. Elle n'a pas d'intuition de ce qu'est la fragilité.
 

AVEC UN WORLD MODEL :
 

→ Vous l'entraînez sur pétaoctets de simulations (données synthétiques, faciles à générer).

→ Le world model apprend : « Les objets rigides ne se déforment pas », « Si je tire vers la gauche, l'objet va à gauche », « Si je la serre trop fort, elle se casse ».

→ Vous le déployez dans le vrai appartement.

→ AVANT de toucher à un objet fragile, le robot SIMULE internement ce qui va se passer.

→ Il teste des milliers de stratégies dans sa tête (dans sa représentation du monde).

→ Il n'a besoin que de 100-200 essais réels pour ajuster les détails locaux.

→ Il marche. Avec TRÈS peu de données réelles.
 

C'est l'efficacité d'échantillonnage (sample efficiency).

Chiffres clés à retenir :

IA générative pour une tâche : des MILLIERS d'exemples réels + entraînement continu

World model pour la même tâche : 100-200 exemples réels après l'entraînement initial

Ratio : 10-50x moins de données réelles consommées par un world model
 

Voici ce que Yann Le Cun disait à ce sujet en 2025 : « L'IA générative est l'équivalent d'un étudiant qui relit toujours ses notes sans jamais construire une compréhension profonde. Les world models, c'est un étudiant qui apprend les principes fondamentaux, puis peut les appliquer à des nouvelles situations immédiatement. »

Le paradoxe de« La scalabilité » ou « l'effet d'échelle »
 

Oui, les world models demandent des pétaoctets pour l'entraînement initial. Mais c'est une ONE-TIME investment que vous mutualisez entre des milliers de tâches.
 

Une fois qu'un world model général est entraîné (à grand coût), TOUS les robots du monde peuvent l'utiliser pour apprendre des nouvelles tâches quasi-gratuitement en consommation de datas réelles.
 

L'IA générative, elle ? Elle consomme des teraoctets supplémentaires chaque fois que vous voulez l'améliorer sur un nouveau domaine. C'est une fuite infinie de coûts opérationnels.

En résumé :

Non, les world models ne sont pas bloqués par la data. Ils solutionnent un VRAI problème de l'IA générative : la dépendance infinie à la données réelles coûteuses.
 

C'est encore une raison pour laquelle les world models représentent l'avenir, pas l'IA générative.
 

 


 

Section 3 : Les conséquences pratiques (Pourquoi cela change tout)

De la science-fiction à la révolution pratique

Maintenant vous comprenez peut-être pourquoi cette distinction est énorme. Voici pourquoi :

Robotique :

Avec l'IA générative, vous ne pouvez entraîner un robot qu'en lui faisant faire physiquement des millions d'essais. C'est coûteux, c'est lent, c'est dangereux.
 

Avec un world model, le robot peut d'abord apprendre dans une SIMULATION. Il teste des millions de stratégies dans son esprit virtuel, puis applique ce qu'il a appris au monde réel. On passe de « milliers d'essais réels » à « quelques dizaines d'essais réels ».
 

Cela rend possible la manipulation d'objets fragiles, la navigation en environnement complexe, la coordination de multiples tâches – des choses impossibles avec l'IA générative.

Véhicules autonomes :

L'IA générative ne peut pas vraiment conduire. Elle peut reconnaître un feu rouge, mais elle ne peut pas ANTICIPER ce que va faire ce piéton qui marche vers la route.
 

Un world model ? Il SIMULE les 5-10 secondes suivantes. Il « voit » le futur. Il comprend la causalité : « Si le feu change au rouge maintenant, les voitures arrêteront dans 2 secondes ».
 

Cela change tout pour la sécurité routière autonome.

Santé et médecine :

Imaginez un « jumeau numérique » d'un patient – une simulation interne de son corps. Un world model pourrait prédire comment son corps va réagir à un traitement SANS risquer sa vie.
 

L'IA générative ne peut pas faire ça. Elle peut écrire une dissertation sur la chimiothérapie, mais elle ne peut pas la simuler.

Apprentissage :

Un robot équipé d'un world model apprend comme un enfant : en jouant, en testant, en construisant une intuition du monde.
 

Un modèle génératif n'apprend que des corrélations. Il n'y a pas d'intuition.
 

 


 

Section 4 : Le piège des titres accrocheurs

Pourquoi les médias vous trompent (et vous tromperont encore)

Vous remarquerez que personne ne parle des world models à la télévision. Les titres accrocheurs font le buzz sur ChatGPT, sur Gemini, sur les images IA qu'une jeune fille a créées qui font 30 millions de vues.
 

Pourquoi ? Parce que les world models ne sont pas spectaculaires pour le grand public.
 

Vous ne pouvez pas créer un world model en quelques lignes de texte. Vous ne pouvez pas faire un screenshot impressionnant. C'est de la recherche. C'est technique. C'est lent à développer.
 

Mais dans 10-15 ans ? Quand vous aurez une voiture qui conduit mieux que vous, un robot qui fait votre ménage sans casser vos affaires, une simulation médicale qui a sauvé votre vie ? Ces résultats viendront des world models, pas de ChatGPT.
 

C'est le classique : le bruit médiatique suit les solutions immédiates et spectaculaires, pas la vraie révolution qui s'opère en silence.
 

 


 

Section 5 : Ce que cela signifie pour l'avenir

2026-2036 : La vraie décennie de l'IA

Selon les chercheurs en pointe (Yann Le Cun et Fei-Fei Li - voir fiches en addendum -, et beaucoup d'autres), voici ce qui devrait se passer dans la prochaine décennie :
 

L'IA générative plafonnera. Elle restera utile (pour la rédaction, la traduction, etc.), mais elle ne résoudra pas les vrais problèmes.
 

Les world models prendront le relais. Nous verrons une explosion de systèmes IA qui COMPRENNENT vraiment le monde, plutôt que de simplement prédire.
 

La robotique sera révolutionnée. Les robots deviendront pratiques, sûrs et omniprésents.
 

Les véhicules autonomes deviendront enfin réels – pas des versions bêta fragiles, mais des systèmes fiables et globalement adoptés.
 

La médecine personnalisée deviendra possible via les jumeaux numériques.
 

L'IA deviendra invisible. Ce ne sera plus « ChatGPT qui fait un truc impressionnant », mais une couche sous-jacente du monde qui fonctionne simplement.
 

C'est ÇA, l'avenir. Pas les chatbots, les world models.
 

 


 

Conclusion : Comprendre c'est agir

Beaucoup de gens me demandent : « L'IA va-t-elle prendre mon emploi ? L'IA va-t-elle me remplacer ? »
 

La question est mal posée. La vraie question est : « Quelle IA ? »
 

ChatGPT ne va prendre personne au sérieux. C'est un outil utile, comme Google ou Excel.
 

Mais un world model ? Un système qui comprend vraiment la causalité, qui peut prédire le futur et apprendre sans supervision humaine massive ? OUI, ça changera le monde.
 

Le secret ? C'est de comprendre la différence. Et c'est ce que peu de gens font.
 

Alors la prochaine fois qu'un ami vous dit « L'IA générative va révolutionner le monde », vous pourrez répondre : « Non, c'est juste une étape. La vraie révolution se prépare ailleurs, et elle s'appelle world models. »
 

Et vous saurez des choses que 99% des gens ignorent.
 

Et pendant ce temps, qui travaille dessus ? Les labos américains découvrent. Les Chinois industrialisent. 

 

Dans 5 ans, quand des robots à 3 000 € comprendront enfin la fragilité d'un verre de cristal, devinez qui les aura produits par millions ?
 

Les Américains inventent, les Chinois déploient. Et à cette échelle-là, c'est celui qui déploie qui gagne.

Pourquoi ?



La Chine est passée de l'imitation à l'innovation systémique, et c'est un changement de paradigme, pas juste une amélioration progressive.
 

DeepSeek, Qwen, etc. ne sont pas des copies
 

Ce sont des architectures originales qui performent au niveau (ou au-delà) de ce que font GPT, Claude, Sonnet. La recherche fondamentale chinoise est maintenant à la frontière, pas en retard. Et en open source, s’il vous plaît.C’est à dire gratuitement et librement copiable.
 

L'État coordonne, pas de concurrence chaotique. 
 

C'est un avantage structurel énorme. Aux USA, Meta, OpenAI, Anthropic, Google font chacun leur truc, se volent les talents, gaspillent de la recherche redondante. En Chine, c'est orchestré : Baidu, Alibaba, ByteDance, Tencent reçoivent des objectifs de l'État, partagent certaines infras, et progressent ensemble. Sur 5 ans, cette différence de coordination se traduit en années-lumière d'avance.
 

Sur les world models, 
 

les Chinois ne découvrent rien. Ils savent exactement où en est la recherche mondiale (ils lisent les papers, ils recrutent les meilleurs cerveaux, ils envoient des chercheurs en conférence). Donc oui, ils travaillent probablement déjà intensément sur les world models depuis 1-2 ans au moins.
 

Projection 
 

Dans 3-5 ans la Chine sort des world models robustes, les intègre massivement dans ses robots déjà en production (à moins de 5000 $ pièce (!) et soudain le coût/efficacité des systèmes robotiques chinois explose tandis que les Américains sont encore en phase « recherche académique »
 

À ce moment-là, l'avance américaine aura effectivement fondu comme neige au soleil.
 

📋 ADDENDUM : Fiches de présentation des experts

Fiche 1 : Yann Le Cun

Identité : Yann André Le Cun - Informaticien et neuroscientifique français
 

Formation :
 

→ Ingénieur ENSIMAG (Grenoble), 1983

→ Doctorat Université Pierre et Marie Curie (Paris VI), 1987

→ Thèse pionnière sur les réseaux de neurones convolutifs (CNN)
 

Carrière :
 

Bell Labs (1988-1996) - Invention des CNN pour reconnaissance de chiffres

AT&T Labs (1996-2003) - Direction recherche en reconnaissance de formes

NYU (2003-2013) - Professeur de neurosciences computationnelles

Meta (2013-2025) - Chief AI Scientist, leadership sur world models
 

Distinctions :
 

→ 🏆 Prix Turing 2018 (avec Hinton et Bengio)

→ 🏆 National Medal of Technology and Innovation (2015)

→ 🏆 Breakthrough Prize in Life Sciences (2016)

→ Membre Académie nationale des sciences USA
 

Contributions majeures :
 

→ Réseaux de neurones convolutifs (CNN) - révolution vision par ordinateur

→ Backpropagation pratique - rendre le deep learning viable

→ Deep learning moderne - architectures dominantes

→ Energy-Based Models - framework théorique alternatif

→ World Models & Causalité - L'IA qui comprend vraiment
 

Position sur les world models : Critique véhémente de l'IA générative. Considère les world models comme LA révolution future de l'IA.
 

« L'avenir n'est pas dans l'échelle des modèles génératifs. C'est dans la construction de systèmes qui comprennent les lois de la physique et de la causalité. C'est là que la vraie intelligence émergera. » (2025)
 

 


 

Fiche 2 : Fei-Fei Li

 

Identité : Fei-Fei Li (李飞飞) - Informaticienne et neuroscientifique sino-américaine
 

Formation :
 

→ Licence Physique - Princeton, 2004

→ Master Informatique - Princeton, 2005

→ Doctorat Informatique - Princeton, 2007

→ Directrice thèse : David J. Kriegman (vision par ordinateur)
 

Carrière :
 

Caltech (2007-2008) - Chercheure postdoctorale

UC Berkeley (2008-2009) - Assistant Professor

Stanford (2009-2018) - Associate Professor, fondatrice Vision Lab

Google Cloud (2017-2018) - Chief Scientist AI/ML (temps partiel)

Stanford (2018-présent) - Directrice HAI (Human-Centered AI Institute)
 

Distinctions :
 

→ 🏆 PAMI Young Researcher Award (2012)

→ 🏆 Sloan Research Fellowship (2012)

→ 🏆 NSF CAREER Award (2012)

→ 🏆 Forbes 30 Under 30 (2015)

→ Membre conseil World Economic Forum (Davos)
 

Contributions majeures :
 

ImageNet (14M d'images) - révolution vision par ordinateur

→ Vision par ordinateur pratique - reconnaissance d'objets en conditions réelles

→ Human-Centered AI - IA centrée sur l'humain, pas seulement performance

→ AI Ethics & Governance - impacts sociétaux de l'IA

→ Common Sense in AI - intégration du sens commun
 

Position sur les world models : Critique du manque de « sens commun » dans l'IA générative. Plaide pour une IA qui comprend vraiment le monde.
 

« Les systèmes d'IA d'aujourd'hui peuvent passer des tests académiques, mais ils échouent sur des tâches simples qu'un enfant de 3 ans maîtrise. C'est parce qu'ils n'ont pas de modèle véritable du monde. Les world models changent cela. » (2024)
 

 


 
 

Fiche 3 : Demis Hassabis 
 

Identité : 

Demis Hassabis - CEO de Google DeepMind, neuroscientifique et entrepreneur britannique
 

Formation :

Doctorat en Neurosciences Computationnelles, UCL (University College London), 2009 Prix d'or en jeu vidéo à 17 ans (Theme Park) Études en Intelligence Artificielle à Cambridge
 

Carrière :
 

DeepMind (fondateur 2010, racheté par Google 2014) : 

AlphaGo (2016), 

AlphaFold (2020), 

Gemini 

AGI, world models, robotique Ancien joueur de poker pro et concepteur de jeux vidéo
 

Distinctions :
 

→ 🏆 Prix Turing 2024 (avec John Jumper) 🏆 Breakthrough Prize (2024) Chevalier de l'Empire Britannique (2023) Membre Royal Society
 

→ 🏆Prix Nobel de Chimie en 2024 (!) avec John Jumper et David Baker, pour ses 

travaux révolutionnaires sur la prédiction de la structure des protéines via l'intelligence artificielle.
 

Contributions majeures :
 

AlphaGo (2016) - Premier programme à battre le champion du monde de Go 

AlphaFold (2020) - Révolution de la biologie (prédiction des protéines) 

Genie 3 (2025) - World models capables de créer des mondes 3D interactifs 

SIMA (agent jeu) - Vers l'AGI générale Benchmark physique - Tests de compréhension causale
 

Position sur les world models : 
 

Considère les world models comme "la clé de l'AGI". Critique les LLM : "Hard to describe spatial dynamics in words." Genie 3 est son projet phare.
 

« This line of work (and world models in general) is very close to my heart. » (Tweet, août 2025)
 

Style : Visionnaire, scientifique rigoureux • Focus sur l'AGI et la robotique • Communication accessible mais technique
 

Pourquoi dans cet article ? Hassabis + Le Cun + Fei-Fei Li = le trio parfait. Les 3 leaders mondiaux de l'IA sont d'accord : les world models sont l'avenir.
 

© Guy Déridet, 2026 | deridet.com

 


Jeudi 7 Mai 2026

Lu 74 fois
1 2 3 4 5 » ... 10

Mode d'emploi de ce site | Edito | Humour | Santé | Intelligence Artificielle | Covid-19 | Informatique | Sexualités | Politique | Coup de gueule | Coup de coeur | Voyages | Divers | Télécoms | Smartphones | Musique | Archives | Dernières nouvelles | Bons plans | Belles annonces | Environnement | Partenaires