Open Compute for Agentic AI (FlagOS)

Bridging AI Evaluation and Real-World Deployment: Place-Based Evaluation Testbeds for High-Trust Public Domains

日期 5月5日时间 15:15 - 15:35 地点 Central Room

随着AI系统从独立模型向使用工具的、面向工作流的、日益智能体化的部署演进，评估必须超越基准比较和静态任务分数。本次演讲提出基于场所的评估测试平台，通过治理优先的方法设计，以在文化、教育和水资源相关社会生态等高信任公共领域中桥接AI评估与实际部署。

核心论点是，仅凭基准性能无法证明系统是否已准备好进行机构级部署。在真实世界环境中，系统质量不仅取决于答案准确性，还取决于可追溯性、鲁棒性、可审计性、文档就绪性以及在上下文约束下的安全行为。为弥合这一差距，本演讲引入了一种基于受治理知识层而非无约束生成的测试平台架构。

提议的流水线是：现场接触→协同策展→受治理知识层→AI伴侣→监督反馈循环。这创建了一个受控检索环境，其中输出可以根据策展来源、来源逻辑、访问条件和纠正路径进行评估。因此，它不仅支持响应质量的评估，还支持在现实面向公众条件下的部署相关属性评估。

作为初始参考环境，本演讲使用蒂豪尼（匈牙利）——一个遗产和水资源相关的景观背景——来说明受治理知识层如何支持更可控和可问责的公共利益AI部署。水资源维度还将测试平台与Source2Sea: Bartók 3.0 Connectivity（2026-2031）联系起来，这是联合国海洋十年行动，探索关联的文化和水资源系统。

更广泛的主张是，基于场所的评估测试平台可以补充开放评估倡议，提供真实世界环境，在其中模型能力、系统编排和社会部署就绪性可以被一起评估。

演讲嘉宾

Gábor Soós Advisory Committee Member, ICCSD UNESCO