GOSIM Paris 2026 已圆满结束
感谢所有参会者、演讲嘉宾和赞助商,让本次活动精彩纷呈!
演讲幻灯片
活动相册
活动已结束
议题
演讲嘉宾
日程
支持者
同期活动
志愿者
会场
English
中文
Français
活动已结束
筛选
议题
演讲嘉宾
日程
支持者
同期活动
志愿者
会场
English
中文
Français
活动已结束
筛选
上一个
The Real Challenge Isn't Starting.
所有日程
下一个
Building, Testing and Contributing to vLLM: A Developer's Guide
vLLM Workshop
Opening Remarks — vLLM Workshop
日期
5月5日
时间
10:20 - 10:25
地点
Founders Cafe
智能体AI正在重塑推理架构。推理模型、长上下文工作流和多步智能体系统对服务栈施加了新的压力,使得加速器策略比以往更加重要。挑战不再仅仅是快速服务模型,而是将正确的服务架构和正确的加速器配置匹配到正确的工作负载。
这就是为什么广泛的加速器支持在vLLM中很重要。vLLM专为高吞吐量、内存高效的推理和服务而构建,其架构旨在跨不同硬件环境部署开放模型,而非单一路径。AI加速器涵盖GPU、NPU和基于ASIC的设计等常见类别,CPU支持仍然适用于特定部署场景,如较小模型、边缘环境和成本敏感型工作负载。
本次分享探讨了这一转变对构建推理平台的团队意味着什么。它审视了为什么智能体工作负载使加速器策略更加重要,为什么广泛的硬件支持在vLLM生态系统中很重要,以及平台团队如何从工作负载形态、提示和上下文行为、并发性、解码延迟、内存压力、扩展模式和运维适配的角度思考基础设施选择。vLLM是这一讨论的坚实基础,因为该项目强调广泛的硬件支持、顶级性能、生产就绪性和可扩展架构,其服务栈包括高吞吐量服务、分布式推理以及在线和离线推理模式等功能。
一个实用框架将加速器决策与工作负载需求和部署目标联系起来,为与会者提供了一种更清晰的方式来思考现代推理架构,同时展示vLLM如何在工作负载演变时保持服务层的开放性和适应性。
演讲嘉宾
Erwan Gallen
Senior Principal Product Manager - Generative AI, Red Hat