Own Your Data Workshop

Synthetic Data for the Commons: Building Open SOTA LLMs with Synthetic Environments

日期 5月5日时间 11:00 - 11:20 地点 Open Stage

训练最先进的语言模型通常需要大量专有数据集和封闭的流水线。在 Pleias，我们走了一条不同的路——使用为公共利益设计的合成数据环境来构建开放、高性能的 LLM。本次演讲将介绍我们构建合成数据流水线的方法，这些流水线无需依赖专有数据源即可生成多样化、高质量的训练语料。我们将涵盖合成环境背后的技术架构、在标准基准测试上实现竞争性能的训练策略，以及为什么我们认为开放的合成数据是实现前沿 AI 能力民主化的关键拼图。我们将分享经验教训、基准测试结果，以及社区驱动改进的路线图。

演讲嘉宾

Anastasia Stasenko CEO & Co-Founder, Pleias

Pierre-Carl Langlais Pleias