IA Agentique sur Edge

OminiX: Fully Automated Native C++ Deployment for Diverse Large-Scale Learning Models

Date 6 mai Heure 11:10 - 11:35 Lieu Central Room

L'exécution de l'inférence de deep learning en C++ natif permet un déploiement efficace en périphérie, élimine les dépendances à Python/PyTorch et autorise une quantification rapide et précise. Cependant, la conversion d'un modèle PyTorch en C++ natif nécessite des semaines de développement intensif, et seul un nombre restreint de LLM ont été portés manuellement. Nous proposons OminiX cpp, un pipeline automatisé dans lequel un agent IA doté de compétences procédurales structurées convertit des modèles PyTorch arbitraires en code d'inférence C++ optimisé ciblant le runtime GGML. OminiX cpp va au-delà des LLM et prend en charge diverses familles de modèles, notamment la génération d'images et de vidéos, la reconnaissance vocale, les modèles de synthèse vocale, les modèles du monde et les modèles Vision-Language-Action (VLA). En guise d'étude de cas, nous présentons les résultats sur OpenVLA, un modèle VLA de 7 milliards de paramètres, atteignant un taux de réussite quasi sans perte, une réduction de mémoire allant jusqu'à 63 % et une accélération allant jusqu'à 1,52×.

Intervenants

Yanzhi Wang Professor, Northeastern University