La plupart des jeux de données de pointe pour l'apprentissage de la manipulation robotique reposent sur un ensemble limité de modalités — descriptions de tâches, états articulaires (observations et actions) et images RGB synchronisées. Bien que suffisants pour entraîner des modèles Vision-Language-Action (VLA), ces signaux ne capturent qu'une fraction de la façon dont nous percevons et interagissons avec le monde.
En revanche, la navigation robotique a depuis longtemps adopté des représentations plus riches — profondeur, nuages de points et cartes — soulignant l'importance de la perception multimodale. Les humains, de même, ne se fient pas uniquement à la vision : nous touchons, entendons et estimons continuellement distances et forces. Étendre les jeux de données de manipulation pour inclure des modalités telles que l'audio, le retour tactile ou la profondeur ouvre la voie à des systèmes d'apprentissage robotique plus robustes, adaptatifs et généralisables.
Cependant, augmenter la diversité modale ne se résume pas à ajouter davantage de flux de données. Cela introduit des défis significatifs en matière de collecte, synchronisation, stockage et standardisation des données. De plus, augmenter les jeux de données dans une seule direction peut rapidement entraîner des inefficacités qui entravent l'entraînement et l'utilisabilité.
Cette présentation expose les défis rencontrés lors de l'introduction de nouvelles modalités dans le jeu de données LeRobot, ainsi que les décisions de conception prises pour équilibrer diversité et efficacité. Elle aborde les solutions pratiques pour intégrer des données hétérogènes tout en maintenant des structures de jeux de données évolutives et utilisables.