En IA et en sciences cognitives, les modèles du monde sont essentiels pour la planification, le raisonnement et l’apprentissage par l’expérience. Un modèle du monde efficace doit : percevoir et apprendre les connaissances du monde réel, prédire et générer des scènes du monde réel, raisonner et contrôler selon les lois physiques, et agir de manière robuste avec un humain dans la boucle. Les travaux antérieurs sur les modèles du monde avaient des capacités limitées en représentation/génération et en conscience physique. Nous surmontons ces limitations grâce à deux innovations, vers le premier modèle du monde open source et ancré dans la physique issu du monde académique. Premièrement, nous développons un cadre de flow matching et d’apprentissage par renforcement DPO pour améliorer la continuité et la conscience physique dans la représentation et la génération du modèle du monde, obtenant les meilleurs résultats en conscience physique et l’état de l’art en génération vidéo open source. Deuxièmement, nous développons un système complet de benchmarking et d’arène pour la conscience physique, extrayant 50 à 60 métriques démontrant la conscience des lois physiques dans la génération vidéo et les trajectoires, couvrant la qualité vidéo, le sens commun, la mécanique newtonienne, l’optique, l’énergie, la chimie, les matériaux, etc. Enfin, nous décrivons nos efforts vers le concept de « modèle du monde pour tous », utilisant un modèle unique pour le contrôle robotique, la navigation, la gestion de tâches, la planification, la décomposition de tâches, ainsi que le SLAM automatique et la reconstruction 3D pour la perception de l’environnement.