IA Agentique sur Edge

Vulkan for Edge AI: Expanding the Hardware Frontier with llama.cpp

Date 6 mai Heure 11:35 - 12:00 Lieu Central Room

L'IA agentique en périphérie nécessite une inférence accessible et à faible latence, mais la fragmentation matérielle limite le déploiement. Si CUDA domine l'accélération, son verrouillage fournisseur contraint l'intelligence locale. Cette présentation examine Vulkan comme alternative neutre vis-à-vis des fournisseurs, en montrant comment il a élargi la compatibilité et réduit la complexité de déploiement dans llama.cpp sur les GPU Intel, AMD et NVIDIA.

Cependant, Vulkan n'est pas une solution miracle. Je présenterai les obstacles d'ingénierie, des incohérences de pilotes aux limitations de calcul. En perspective, nous explorerons VK_NV_cooperative_matrix2 comme modèle pour déléguer les optimisations spécifiques au matériel au pilote. Cela permet d'atteindre des performances maximales via les optimisations des fournisseurs tout en maintenant une prise en charge large grâce aux shaders génériques de repli, unifiant ainsi l'écosystème de l'IA en périphérie.

Intervenants

Ruben Ortlam Senior ML Engineer, Red Hat