open-source-model

OpenSeek-10B: Scaling Open-Source LLMs with Less Compute

日期 5月6日时间 14:30 - 15:00 地点 Open Stage

从零开始预训练大语言模型成本高昂——但一定要如此吗？在本次演讲中，我们介绍 OpenSeek-10B，一个完全开源的 100 亿参数语言模型，其性能超越 Qwen3-14B-Base 及其他同等规模的开源模型，同时将预训练 FLOPs 减少了约 20 倍。

我们分享了两项关键技术的叠加效应，极大提升了预训练效率：小模型初始化——通过混合宽度-深度扩展将训练好的 40 亿参数模型增长到 100 亿规模，继承其已学习的能力而非从零开始；以及 Muon 优化器，进一步加速了相比广泛使用的 AdamW 的训练收敛。结合完全基于开源数据集的精心设计的多阶段数据策略，OpenSeek-10B 在主流基准测试中超越了 Qwen3-14B-Base 及其他同等规模的开源模型。

我们将详细介绍完整方案——模型扩展、优化器选择、数据策划以及我们一路走来的经验教训——为社区提供一个实用的、可复现的蓝图，以更低的成本预训练有竞争力的模型。我们还将分享 FlagOS（BAAI 的开源统一软件栈，已在 6 家厂商的芯片上验证）如何使该方案能够高效地在单一硬件生态系统之外运行。

演讲嘉宾

Jiabei Chen Ph.D. Student, Institute of Automation, Chinese Academy of Sciences & BAAI