[Hands-on Lab] RL Training Lab: Launch a Real Training Job with the Miles RL Framework
Date6 maiHeure16:00 - 17:10Lieu Central Room
Le post-entraînement par apprentissage par renforcement (RL) est devenu une étape critique dans la construction de modèles de fondation performants — pourtant la plupart des praticiens open source peinent encore à mettre en place un pipeline RL stable et à haut débit. Cet atelier pratique apporte l'infrastructure RL éprouvée de SGLang directement à la communauté GOSIM Paris. Les participants construiront une boucle d'entraînement RL de bout en bout en utilisant SGLang comme backend de génération de trajectoires, apprendront à l'intégrer avec le framework Miles, et aborderont des défis concrets comme le décalage entraînement-inférence et l'efficacité des trajectoires à grande échelle. SGLang alimente aujourd'hui le post-entraînement RL de modèles de pointe dans toute l'industrie, fonctionnant sur plus de 400 000 GPU dans le monde. Cette session distille cette expérience de production en techniques pratiques et reproductibles — offrant aux développeurs et chercheurs open source une voie concrète pour exécuter un entraînement RL robuste sur leur propre infrastructure.