KTransformers: Full-Precision Inference for 600B+ MoE Models on Consumer Hardware
Date6 maiHeure10:20 - 10:45Lieu Central Room
KTransformers est un framework d'inférence hétérogène CPU-GPU open source qui exécute des modèles MoE de pointe comme DeepSeek-V3 et Qwen3.5-397B en précision FP8 sur des GPU grand public. En déchargeant les calculs des experts sur le CPU avec une coordination capturable par CUDA Graph, il atteint une vitesse de décodage de plus de 35 tokens/seconde — rendant les modèles de 600B+ paramètres accessibles sans infrastructure de datacenter.