Synthetic Data for the Commons: Building Open SOTA LLMs with Synthetic Environments
日期5月5日时间11:00 - 11:20地点 Open Stage
训练最先进的语言模型通常需要大量专有数据集和封闭的流水线。在 Pleias,我们走了一条不同的路——使用为公共利益设计的合成数据环境来构建开放、高性能的 LLM。本次演讲将介绍我们构建合成数据流水线的方法,这些流水线无需依赖专有数据源即可生成多样化、高质量的训练语料。我们将涵盖合成环境背后的技术架构、在标准基准测试上实现竞争性能的训练策略,以及为什么我们认为开放的合成数据是实现前沿 AI 能力民主化的关键拼图。我们将分享经验教训、基准测试结果,以及社区驱动改进的路线图。