GOSIM Paris 2026 已圆满结束
感谢所有参会者、演讲嘉宾和赞助商,让本次活动精彩纷呈!
演讲幻灯片 演讲幻灯片 活动相册 活动相册
筛选
Own Your Data Workshop

Evaluating Frontier Agents on Economically Valuable Tasks

日期 5月5日 时间 11:40 - 12:00 地点 Open Stage
显然,AI Agent 正变得越来越强大——但要让它们在人们日常工作中普遍存在的真实任务上表现出色,到底需要什么?在本次演讲中,我将讨论如何建模复杂环境以评估和提升 Agent 的可靠性和性能。我将重点关注实际任务中生产部署的可行性,使用 Harbor (https://github.com/laude-institute/harbor) 构建和运行评估的技术层面,以及我们在 ellamind 如何利用这些技术来构建可靠且可证明安全的 Agent。