GOSIM Paris 2026 est terminé
Merci à tous les participants, conférenciers et sponsors pour cet événement incroyable !
Diapositives Diapositives Album photo Album photo
Filtrer
IA Agentique sur Edge

KTransformers: Full-Precision Inference for 600B+ MoE Models on Consumer Hardware

Date 6 mai Heure 10:20 - 10:45 Lieu Central Room
KTransformers est un framework d'inférence hétérogène CPU-GPU open source qui exécute des modèles MoE de pointe comme DeepSeek-V3 et Qwen3.5-397B en précision FP8 sur des GPU grand public. En déchargeant les calculs des experts sur le CPU avec une coordination capturable par CUDA Graph, il atteint une vitesse de décodage de plus de 35 tokens/seconde — rendant les modèles de 600B+ paramètres accessibles sans infrastructure de datacenter.