OpenSeek-10B: Scaling Open-Source LLMs with Less Compute
Date6 maiHeure14:30 - 15:00Lieu Open Stage
Le pré-entraînement de grands modèles de langage à partir de zéro est coûteux — mais est-ce une fatalité ? Dans cette présentation, nous présentons OpenSeek-10B, un modèle de langage entièrement open source de 10 milliards de paramètres qui surpasse Qwen3-14B-Base et d’autres modèles open source de taille comparable, tout en réduisant les FLOPs de pré-entraînement d’environ 20 fois.
Nous partageons deux techniques clés dont les effets se combinent pour améliorer considérablement l’efficacité du pré-entraînement : l’initialisation par petit modèle, qui fait croître un modèle de 4B bien entraîné vers l’échelle de 10B par expansion hybride en largeur et en profondeur, héritant de ses capacités acquises plutôt que de repartir de zéro ; et l’optimiseur Muon, qui accélère encore la convergence de l’entraînement par rapport à l’AdamW largement utilisé. Combiné à une stratégie de données multi-étapes soigneusement conçue et entièrement basée sur des jeux de données open source, OpenSeek-10B surpasse Qwen3-14B-Base et d’autres modèles open source de taille comparable sur les benchmarks standards.
Nous détaillerons la recette complète — mise à l’échelle du modèle, sélection de l’optimiseur, curation des données et les leçons apprises en chemin — fournissant un guide pratique et reproductible pour la communauté afin de pré-entraîner des modèles compétitifs à moindre coût. Nous partagerons également comment FlagOS, la pile logicielle unifiée open source du BAAI validée sur les puces de 6 fournisseurs, permet à cette recette de fonctionner efficacement au-delà d’un seul écosystème matériel.