Atelier Own Your Data

LightOnOCR: Pushing the Performance-Efficiency Pareto Frontier of Open OCR Models

Date 5 mai Heure 11:20 - 11:40 Lieu Open Stage

LightOnOCR est un modèle de langage visuel (VLM) de 1 milliard de paramètres conçu pour l'OCR, visant à repousser la frontière de Pareto performance-efficacité pour la compréhension documentaire en conditions réelles. Dans cette présentation, nous exposons la motivation derrière LightOnOCR, les choix de conception clés d'un modèle OCR multilingue de bout en bout, et les compromis pratiques impliqués dans la construction de modèles à la fois précis et efficaces. Nous discutons du pipeline d'entraînement complet, incluant la curation, le nettoyage, la déduplication et l'augmentation des données, ainsi que les nombreuses astuces pratiques nécessaires pour faire fonctionner l'entraînement OCR à grande échelle. Nous couvrons le pré-entraînement sur de grands ensembles d'images, avec une couverture renforcée des scans, des PDF scientifiques et du contenu riche en LaTeX, et montrons comment une étape finale de RLVR aide à résoudre des modes d'échec persistants que l'entraînement supervisé seul ne peut pas totalement résoudre, y compris les boucles de répétition, les erreurs de formatage et les problèmes de cohérence sensibles à la mise en page. Au moment de sa sortie, LightOnOCR a dominé OlmOCR-Bench tout en surpassant des modèles jusqu'à 9 fois plus grands. Au-delà des résultats de benchmarks, la présentation se concentre sur ce qui compte en pratique : atteindre un haut débit et une faible latence sur du matériel réaliste, comme un seul H100, où les approches VLM plus volumineuses sont trop lentes pour être utilisables.

Intervenants

Said Taghadouini ML Research Engineer, LightOn

Baptiste Aubertin AI/ML Engineer, LightOn