GOSIM Paris 2026 已圆满结束
感谢所有参会者、演讲嘉宾和赞助商,让本次活动精彩纷呈!
演讲幻灯片 演讲幻灯片 活动相册 活动相册
筛选
Own Your Data Workshop

LightOnOCR: Pushing the Performance-Efficiency Pareto Frontier of Open OCR Models

日期 5月5日 时间 11:20 - 11:40 地点 Open Stage
LightOnOCR 是一个 10 亿参数的视觉语言模型,专为 OCR 设计,旨在推动实际文档理解的性能-效率帕累托前沿。在本次演讲中,我们将介绍 LightOnOCR 的设计动机、端到端多语言 OCR 模型背后的关键设计选择,以及构建既准确又高效的模型所涉及的实际权衡。我们将讨论完整的训练流水线,包括数据的筛选、清洗、去重和增强,以及使大规模 OCR 训练在实践中可行所需的诸多实用技巧。我们涵盖在大型图像数据集上的预训练,重点加强了对扫描件、科学 PDF 和 LaTeX 密集内容的覆盖,并展示最终的 RLVR 阶段如何帮助解决仅靠监督训练无法完全解决的持续性失败模式,包括重复循环、格式错误和布局敏感的一致性问题。在发布时,LightOnOCR 在 OlmOCR-Bench 上名列前茅,同时超越了最大 9 倍规模的模型。除了基准测试结果之外,本次演讲聚焦于实践中真正重要的因素:在实际硬件上(如单块 H100)实现高吞吐和低延迟,而更大的基于 VLM 的方法在这种配置下速度太慢而无法实际使用。