Own Your Data Workshop

LightOnOCR: Pushing the Performance-Efficiency Pareto Frontier of Open OCR Models

日期 5月5日时间 11:20 - 11:40 地点 Open Stage

LightOnOCR 是一个 10 亿参数的视觉语言模型，专为 OCR 设计，旨在推动实际文档理解的性能-效率帕累托前沿。在本次演讲中，我们将介绍 LightOnOCR 的设计动机、端到端多语言 OCR 模型背后的关键设计选择，以及构建既准确又高效的模型所涉及的实际权衡。我们将讨论完整的训练流水线，包括数据的筛选、清洗、去重和增强，以及使大规模 OCR 训练在实践中可行所需的诸多实用技巧。我们涵盖在大型图像数据集上的预训练，重点加强了对扫描件、科学 PDF 和 LaTeX 密集内容的覆盖，并展示最终的 RLVR 阶段如何帮助解决仅靠监督训练无法完全解决的持续性失败模式，包括重复循环、格式错误和布局敏感的一致性问题。在发布时，LightOnOCR 在 OlmOCR-Bench 上名列前茅，同时超越了最大 9 倍规模的模型。除了基准测试结果之外，本次演讲聚焦于实践中真正重要的因素：在实际硬件上（如单块 H100）实现高吞吐和低延迟，而更大的基于 VLM 的方法在这种配置下速度太慢而无法实际使用。

演讲嘉宾

Said Taghadouini ML Research Engineer, LightOn

Baptiste Aubertin AI/ML Engineer, LightOn