GOSIM Paris 2026 已圆满结束
感谢所有参会者、演讲嘉宾和赞助商,让本次活动精彩纷呈!
演讲幻灯片 演讲幻灯片 活动相册 活动相册
筛选
open-source-model

World Model for Universal Generation and Control

日期 5月6日 时间 14:00 - 14:30 地点 Open Stage
在 AI 和认知科学中,世界模型是规划、推理和从经验中学习的关键。一个有效的世界模型需要:感知并学习现实世界的知识、预测并生成现实世界的场景、根据物理定律进行推理和控制,以及在人机协同中实现鲁棒操作。先前的世界模型工作在表示/生成能力和物理感知方面存在局限。我们通过两项创新克服了这些限制,朝着首个来自学术界的开源、物理感知世界模型迈进。首先,我们开发了基于流匹配和 DPO 强化学习的框架,以提升世界模型表示和生成的连续性和物理感知能力,在物理感知方面达到了最佳效果,在开源视频生成方面达到了最先进水平。其次,我们开发了全面的物理感知基准测试和竞技场系统,全面提取了 50-60 个指标来衡量视频生成和轨迹的物理定律感知能力,涵盖视频质量、常识、牛顿力学、光学、能量、化学、材料等。这在文献中尚属空白。我们生成了一个智能体和一个 27B 语言模型来根据这些基准评估物理感知能力。最后,我们介绍了向“世界模型服务所有人”概念迈进的努力,利用单一世界模型实现机器人控制和导航、任务管理、规划、任务分解以进行高层管理和控制,以及用于环境感知的自动 SLAM 和 3D 重建。