GOSIM Paris 2026 已圆满结束
感谢所有参会者、演讲嘉宾和赞助商,让本次活动精彩纷呈!
演讲幻灯片
活动相册
活动已结束
议题
演讲嘉宾
日程
支持者
同期活动
志愿者
会场
English
中文
Français
活动已结束
筛选
议题
演讲嘉宾
日程
支持者
同期活动
志愿者
会场
English
中文
Français
活动已结束
筛选
上一个
Synthetic Data for the Commons: Building Open SOTA LLMs with Synthetic Environments
所有日程
下一个
Evaluating Frontier Agents on Economically Valuable Tasks
Own Your Data Workshop
LightOnOCR: Pushing the Performance-Efficiency Pareto Frontier of Open OCR Models
日期
5月5日
时间
11:20 - 11:40
地点
Open Stage
LightOnOCR 是一个 10 亿参数的视觉语言模型,专为 OCR 设计,旨在推动实际文档理解的性能-效率帕累托前沿。在本次演讲中,我们将介绍 LightOnOCR 的设计动机、端到端多语言 OCR 模型背后的关键设计选择,以及构建既准确又高效的模型所涉及的实际权衡。我们将讨论完整的训练流水线,包括数据的筛选、清洗、去重和增强,以及使大规模 OCR 训练在实践中可行所需的诸多实用技巧。我们涵盖在大型图像数据集上的预训练,重点加强了对扫描件、科学 PDF 和 LaTeX 密集内容的覆盖,并展示最终的 RLVR 阶段如何帮助解决仅靠监督训练无法完全解决的持续性失败模式,包括重复循环、格式错误和布局敏感的一致性问题。在发布时,LightOnOCR 在 OlmOCR-Bench 上名列前茅,同时超越了最大 9 倍规模的模型。除了基准测试结果之外,本次演讲聚焦于实践中真正重要的因素:在实际硬件上(如单块 H100)实现高吞吐和低延迟,而更大的基于 VLM 的方法在这种配置下速度太慢而无法实际使用。
演讲嘉宾
Said Taghadouini
ML Research Engineer, LightOn
Baptiste Aubertin
AI/ML Engineer, LightOn