Atelier Own Your Data

Synthetic Data for the Commons: Building Open SOTA LLMs with Synthetic Environments

Date 5 mai Heure 11:00 - 11:20 Lieu Open Stage

L'entraînement de modèles de langage à l'état de l'art nécessite généralement de vastes ensembles de données propriétaires et des pipelines fermés. Chez Pleias, nous empruntons une voie différente — en construisant des LLM ouverts et performants à l'aide d'environnements de données synthétiques conçus pour le bien commun. Cette présentation expose notre approche de construction de pipelines de données synthétiques qui génèrent des corpus d'entraînement diversifiés et de haute qualité sans recourir à des sources propriétaires. Nous couvrons l'architecture technique derrière nos environnements synthétiques, les stratégies d'entraînement qui permettent des performances compétitives sur les benchmarks standards, et pourquoi nous croyons que les données synthétiques ouvertes sont un élément essentiel pour démocratiser l'accès aux capacités d'IA de pointe. Nous partageons les leçons apprises, les résultats de benchmarks et une feuille de route pour les améliorations portées par la communauté.

Intervenants

Anastasia Stasenko CEO & Co-Founder, Pleias

Pierre-Carl Langlais Pleias