Building, Testing and Contributing to vLLM: A Developer's Guide
Date5 maiHeure10:25 - 11:05Lieu Founders Cafe
Les grands modèles de langage (LLM) ont révolutionné le paysage de l'IA, et vLLM s'est imposé comme un moteur d'inférence de premier plan qui accélère considérablement le service des LLM grâce à des innovations telles que PagedAttention. Mais comment construire, tester et contribuer concrètement à ce projet en évolution rapide ?
Dans cette présentation, nous vous guiderons à travers l'architecture de vLLM et explorerons les aspects pratiques du travail avec cette base de code complexe Python/C++. Nous commencerons par un aperçu des optimisations fondamentales de vLLM, dont PagedAttention, puis plongerons dans le processus de compilation pour différentes cibles ainsi que les plugins matériels tiers, tels que Google TPU, AWS Neuron, Intel Gaudi et bien d'autres.
Vous découvrirez les stratégies de test telles que le benchmarking de performance avec GuideLLM et l'évaluation de modèles avec lm-evaluation-harness. Nous aborderons également les bonnes pratiques de contribution à la communauté vLLM et comment Red Hat AI Inference Server (RHAIIS) fournit une plateforme fiable et validée pour exécuter des workflows LLM sur des environnements matériels diversifiés.