GOSIM Paris 2026 已圆满结束
感谢所有参会者、演讲嘉宾和赞助商,让本次活动精彩纷呈!
演讲幻灯片 演讲幻灯片 活动相册 活动相册
筛选
open-source-model

OpenSeek-10B: Scaling Open-Source LLMs with Less Compute

日期 5月6日 时间 14:30 - 15:00 地点 Open Stage
从零开始预训练大语言模型成本高昂——但一定要如此吗?在本次演讲中,我们介绍 OpenSeek-10B,一个完全开源的 100 亿参数语言模型,其性能超越 Qwen3-14B-Base 及其他同等规模的开源模型,同时将预训练 FLOPs 减少了约 20 倍。

我们分享了两项关键技术的叠加效应,极大提升了预训练效率:小模型初始化——通过混合宽度-深度扩展将训练好的 40 亿参数模型增长到 100 亿规模,继承其已学习的能力而非从零开始;以及 Muon 优化器,进一步加速了相比广泛使用的 AdamW 的训练收敛。结合完全基于开源数据集的精心设计的多阶段数据策略,OpenSeek-10B 在主流基准测试中超越了 Qwen3-14B-Base 及其他同等规模的开源模型。

我们将详细介绍完整方案——模型扩展、优化器选择、数据策划以及我们一路走来的经验教训——为社区提供一个实用的、可复现的蓝图,以更低的成本预训练有竞争力的模型。我们还将分享 FlagOS(BAAI 的开源统一软件栈,已在 6 家厂商的芯片上验证)如何使该方案能够高效地在单一硬件生态系统之外运行。