IA Agentique sur Edge

KTransformers: Full-Precision Inference for 600B+ MoE Models on Consumer Hardware

Date 6 mai Heure 10:20 - 10:45 Lieu Central Room

KTransformers est un framework d'inférence hétérogène CPU-GPU open source qui exécute des modèles MoE de pointe comme DeepSeek-V3 et Qwen3.5-397B en précision FP8 sur des GPU grand public. En déchargeant les calculs des experts sur le CPU avec une coordination capturable par CUDA Graph, il atteint une vitesse de décodage de plus de 35 tokens/seconde — rendant les modèles de 600B+ paramètres accessibles sans infrastructure de datacenter.

Intervenants

Ervin Xie Ph.D. Candidate, Tsinghua University