Eclipse PanEval: Architecting Neutral AI Evaluation for the Era of the EU AI Act
Date5 maiHeure14:40 - 15:00Lieu Master Stage
À mesure que les grands modèles de langage (LLM) deviennent une infrastructure critique, l’exigence d’évaluations transparentes et reproductibles devient une nécessité réglementaire. Cette session présente Eclipse PanEval, un projet communautaire récemment intégré à la Eclipse Foundation. Basé sur une contribution technique fondamentale du projet FlagEval du BAAI, Eclipse PanEval fournit un cadre neutre vis-à-vis des fournisseurs, conçu pour aider l’écosystème à répondre aux exigences de transparence et de documentation de réglementations majeures comme le AI Act européen. Nous discuterons du modèle de gouvernance indépendant du projet et de la manière dont son architecture découplée permet une synchronisation technique mondiale tout en restant adaptable aux standards régionaux.
Les participants découvriront : 1. L’intégration de PanEval : comment un code source sophistiqué a été transféré vers un projet hébergé par une fondation pour assurer un développement communautaire à long terme. 2. La neutralité par conception : pourquoi une gouvernance neutre est essentielle pour que les plateformes de benchmarking soient reconnues par les développeurs et les régulateurs. 3. L’infrastructure de confiance : un regard technique sur l’architecture « évaluation en tant que service » du projet, supportant un scoring multi-dimensionnel à haute concurrence (sécurité, biais et robustesse) au-delà de la simple précision. 4. Réduire les risques par le découplage : comment le projet maintient son indépendance technique, permettant au code européen d’évoluer selon des exigences régionales spécifiques tout en facilitant l’échange bidirectionnel de fonctionnalités et d’améliorations.
Points clés : • Comprendre le rôle des cadres d’évaluation neutres pour démontrer la transparence des IA à usage général (GPAI) • Découvrir comment participer à un projet open source méritocratique axé sur la fiabilité de l’IA • Apprendre comment la collaboration inter-institutionnelle peut construire un standard décentralisé pour le benchmarking de l’IA