vLLM Workshop

Opening Remarks — vLLM Workshop

日期 5月5日时间 10:20 - 10:25 地点 Founders Cafe

智能体AI正在重塑推理架构。推理模型、长上下文工作流和多步智能体系统对服务栈施加了新的压力，使得加速器策略比以往更加重要。挑战不再仅仅是快速服务模型，而是将正确的服务架构和正确的加速器配置匹配到正确的工作负载。

这就是为什么广泛的加速器支持在vLLM中很重要。vLLM专为高吞吐量、内存高效的推理和服务而构建，其架构旨在跨不同硬件环境部署开放模型，而非单一路径。AI加速器涵盖GPU、NPU和基于ASIC的设计等常见类别，CPU支持仍然适用于特定部署场景，如较小模型、边缘环境和成本敏感型工作负载。

本次分享探讨了这一转变对构建推理平台的团队意味着什么。它审视了为什么智能体工作负载使加速器策略更加重要，为什么广泛的硬件支持在vLLM生态系统中很重要，以及平台团队如何从工作负载形态、提示和上下文行为、并发性、解码延迟、内存压力、扩展模式和运维适配的角度思考基础设施选择。vLLM是这一讨论的坚实基础，因为该项目强调广泛的硬件支持、顶级性能、生产就绪性和可扩展架构，其服务栈包括高吞吐量服务、分布式推理以及在线和离线推理模式等功能。

一个实用框架将加速器决策与工作负载需求和部署目标联系起来，为与会者提供了一种更清晰的方式来思考现代推理架构，同时展示vLLM如何在工作负载演变时保持服务层的开放性和适应性。

演讲嘉宾

Erwan Gallen Senior Principal Product Manager - Generative AI, Red Hat