GOSIM Paris 2026 已圆满结束
感谢所有参会者、演讲嘉宾和赞助商,让本次活动精彩纷呈!
演讲幻灯片 演讲幻灯片 活动相册 活动相册
筛选
边缘 Agentic AI

KTransformers: Full-Precision Inference for 600B+ MoE Models on Consumer Hardware

日期 5月6日 时间 10:20 - 10:45 地点 Central Room
KTransformers是一个开源的CPU-GPU异构推理框架,能够在消费级GPU上以FP8精度运行DeepSeek-V3和Qwen3.5-397B等前沿MoE模型。通过将专家计算卸载到CPU并配合CUDA Graph可捕获的协调机制,它实现了35+ tokens/秒的解码速度——使600B+参数模型无需数据中心基础设施即可使用。