[Hands-on Lab] SGLang: High-Performance LLM Serving Framework — Run an Open Model Live
Date6 maiHeure14:05 - 14:50Lieu Central Room
SGLang est un framework de service haute performance open source pour les LLM et les modèles multimodaux, avec plus de 24 000 étoiles GitHub. Dans cette présentation, nous exposerons les principes de conception clés derrière les performances de SGLang.
Nous discuterons des avancées récentes, notamment le support natif des modèles multimodaux, le support du décodage spéculatif (Eagle3/MTP) et la quantification FP8/NVFP4 sur les GPU Hopper et Blackwell. Nous partagerons également les leçons tirées de la maintenance d'un projet open source en évolution rapide avec des milliers de contributeurs dans le monde entier.
Les participants acquerront une compréhension pratique de la façon dont SGLang atteint un débit et une latence à la pointe de l'état de l'art, et comment le déployer pour le service LLM en production.