GOSIM Paris 2026 已圆满结束
感谢所有参会者、演讲嘉宾和赞助商,让本次活动精彩纷呈!
演讲幻灯片 演讲幻灯片 活动相册 活动相册
筛选
vLLM Workshop

Opening Remarks — vLLM Workshop

日期 5月5日 时间 10:20 - 10:25 地点 Founders Cafe
智能体AI正在重塑推理架构。推理模型、长上下文工作流和多步智能体系统对服务栈施加了新的压力,使得加速器策略比以往更加重要。挑战不再仅仅是快速服务模型,而是将正确的服务架构和正确的加速器配置匹配到正确的工作负载。

这就是为什么广泛的加速器支持在vLLM中很重要。vLLM专为高吞吐量、内存高效的推理和服务而构建,其架构旨在跨不同硬件环境部署开放模型,而非单一路径。AI加速器涵盖GPU、NPU和基于ASIC的设计等常见类别,CPU支持仍然适用于特定部署场景,如较小模型、边缘环境和成本敏感型工作负载。

本次分享探讨了这一转变对构建推理平台的团队意味着什么。它审视了为什么智能体工作负载使加速器策略更加重要,为什么广泛的硬件支持在vLLM生态系统中很重要,以及平台团队如何从工作负载形态、提示和上下文行为、并发性、解码延迟、内存压力、扩展模式和运维适配的角度思考基础设施选择。vLLM是这一讨论的坚实基础,因为该项目强调广泛的硬件支持、顶级性能、生产就绪性和可扩展架构,其服务栈包括高吞吐量服务、分布式推理以及在线和离线推理模式等功能。

一个实用框架将加速器决策与工作负载需求和部署目标联系起来,为与会者提供了一种更清晰的方式来思考现代推理架构,同时展示vLLM如何在工作负载演变时保持服务层的开放性和适应性。