开源机器人

LeRobotDataset: Scaling Across Modalities

日期 5月6日时间 16:30 - 16:55 地点 Founders Cafe

大多数最先进的机器人操作学习数据集依赖于有限的模态集——任务描述、关节状态（观测和动作）以及同步的RGB图像。虽然这足以训练视觉-语言-动作（VLA）模型，但这些信号仅捕捉了我们感知和与世界互动方式的一小部分。

相比之下，机器人导航长期以来已采用更丰富的表示——如深度图、点云和地图——突显了多模态感知的重要性。人类同样不仅依赖视觉：我们触摸、听觉，并持续估计距离和力。将操作数据集扩展到包含音频、触觉反馈或深度等模态，为更鲁棒、自适应和可泛化的机器人学习系统提供了一条路径。

然而，增加模态多样性并不仅仅是添加更多数据流的问题。它在数据采集、同步、存储和标准化方面带来了重大挑战。此外，在单一方向上扩展数据集可能很快导致效率低下，阻碍训练和可用性。

本次演讲介绍了在LeRobot数据集中引入新模态时遇到的挑战，以及为平衡多样性与效率所做的设计决策。讨论了集成异构数据同时保持可扩展且可用的数据集结构的实际解决方案。

演讲嘉宾

Caroline Pascal Robotics Engineer, Hugging Face