GOSIM Paris 2026 已圆满结束
感谢所有参会者、演讲嘉宾和赞助商,让本次活动精彩纷呈!
演讲幻灯片
活动相册
活动已结束
议题
演讲嘉宾
日程
支持者
同期活动
志愿者
会场
English
中文
Français
活动已结束
筛选
议题
演讲嘉宾
日程
支持者
同期活动
志愿者
会场
English
中文
Français
活动已结束
筛选
上一个
World Model for Universal Generation and Control
所有日程
下一个
Building the World's First Open-Source Multimodal Speedrun Model
open-source-model
OpenSeek-10B: Scaling Open-Source LLMs with Less Compute
日期
5月6日
时间
14:30 - 15:00
地点
Open Stage
从零开始预训练大语言模型成本高昂——但一定要如此吗?在本次演讲中,我们介绍 OpenSeek-10B,一个完全开源的 100 亿参数语言模型,其性能超越 Qwen3-14B-Base 及其他同等规模的开源模型,同时将预训练 FLOPs 减少了约 20 倍。
我们分享了两项关键技术的叠加效应,极大提升了预训练效率:小模型初始化——通过混合宽度-深度扩展将训练好的 40 亿参数模型增长到 100 亿规模,继承其已学习的能力而非从零开始;以及 Muon 优化器,进一步加速了相比广泛使用的 AdamW 的训练收敛。结合完全基于开源数据集的精心设计的多阶段数据策略,OpenSeek-10B 在主流基准测试中超越了 Qwen3-14B-Base 及其他同等规模的开源模型。
我们将详细介绍完整方案——模型扩展、优化器选择、数据策划以及我们一路走来的经验教训——为社区提供一个实用的、可复现的蓝图,以更低的成本预训练有竞争力的模型。我们还将分享 FlagOS(BAAI 的开源统一软件栈,已在 6 家厂商的芯片上验证)如何使该方案能够高效地在单一硬件生态系统之外运行。
演讲嘉宾
Jiabei Chen
Ph.D. Student, Institute of Automation, Chinese Academy of Sciences & BAAI