agentic-ai-summit

Eclipse PanEval：为欧盟人工智能法时代构建中立的 AI 评估体系

日期 5月5日时间 14:40 - 15:00 地点 Master Stage

随着大语言模型（LLM）逐渐成为关键基础设施，透明且可复现的评估已成为监管层面的必要要求。本次演讲介绍 Eclipse PanEval，一个近期加入 Eclipse Foundation 的社区主导项目。基于 BAAI FlagEval 项目的基础技术贡献，Eclipse PanEval 提供了一个厂商中立的框架，旨在帮助生态系统满足《欧盟 AI 法案》等里程碑法规的透明度和文档要求。我们将讨论该项目的独立治理模式，以及其解耦架构如何实现全球技术同步的同时适应区域标准。

与会者将了解到：
1. PanEval 的加入过程：如何将一个成熟的代码库迁移到基金会托管的项目中，以确保长期的社区主导开发。
2. 设计即中立：为什么厂商中立的管理对于基准评测平台获得开发者和监管者的信任至关重要。
3. 信任基础设施：项目“评估即服务”架构的技术解析，支持高并发、多维度评分（安全性、偏见和鲁棒性），超越简单的准确性评估。
4. 通过解耦降低风险：项目如何保持技术独立性，允许欧洲托管的代码库按特定区域需求演进，同时促进功能和改进的双向交流。

核心要点：
• 了解中立评估框架在展示通用 AI（GPAI）透明度方面的作用
• 了解如何参与一个聚焦 AI 可靠性的精英制开源项目
• 了解跨机构协作如何构建去中心化的 AI 基准标准

演讲嘉宾

Michael Berns Head of AI, Eclipse Foundation