Atelier vLLM

Accelerators for Agentic AI with vLLM

Date 5 mai Heure 11:05 - 11:45 Lieu Founders Cafe

L'IA agentique transforme l'architecture d'inférence. Les modèles de raisonnement, les flux de travail à long contexte et les systèmes d'agents multi-étapes exercent une nouvelle pression sur les piles de service, rendant la stratégie d'accélérateur plus importante que jamais. Le défi n'est plus seulement de servir un modèle rapidement. Il s'agit de faire correspondre la bonne architecture de service et le bon profil d'accélérateur à la bonne charge de travail.

C'est pourquoi le support étendu des accélérateurs est important dans vLLM. vLLM est conçu pour une inférence et un service à haut débit et économes en mémoire, avec une architecture pensée pour déployer des modèles ouverts sur différents environnements matériels plutôt que sur une voie unique. Les accélérateurs IA couvrent des catégories familières comme les GPU, NPU et les designs basés sur ASIC, le support CPU restant pertinent pour des profils de déploiement spécifiques tels que les modèles plus petits, les environnements périphériques et les charges de travail sensibles aux coûts.

La session explore ce que ce changement signifie en pratique pour les équipes qui construisent des plateformes d'inférence. Elle examine pourquoi les charges de travail agentiques rendent la stratégie d'accélérateur plus importante, pourquoi le support matériel étendu compte dans l'écosystème vLLM, et comment les équipes plateforme peuvent réfléchir aux choix d'infrastructure à travers le prisme de la forme de la charge de travail, du comportement des prompts et du contexte, de la concurrence, de la latence de décodage, de la pression mémoire, des modèles de mise à l'échelle et de l'adéquation opérationnelle. vLLM constitue un socle solide pour cette discussion car le projet met l'accent sur le support matériel étendu, les performances de pointe, la préparation à la production et l'architecture extensible, et sa pile de service inclut des capacités telles que le service à haut débit, l'inférence distribuée et les modes d'inférence en ligne et hors ligne.

Un cadre pratique relie les décisions d'accélérateur aux exigences de charge de travail et aux objectifs de déploiement, offrant aux participants une manière plus claire de penser l'architecture d'inférence moderne tout en montrant comment vLLM maintient la couche de service ouverte et adaptable à mesure que les charges de travail évoluent.

Intervenants

Erwan Gallen Senior Principal Product Manager - Generative AI, Red Hat