Own Your Data Workshop

Evaluating Frontier Agents on Economically Valuable Tasks

日期 5月5日时间 11:40 - 12:00 地点 Open Stage

显然，AI Agent 正变得越来越强大——但要让它们在人们日常工作中普遍存在的真实任务上表现出色，到底需要什么？在本次演讲中，我将讨论如何建模复杂环境以评估和提升 Agent 的可靠性和性能。我将重点关注实际任务中生产部署的可行性，使用 Harbor (https://github.com/laude-institute/harbor) 构建和运行评估的技术层面，以及我们在 ellamind 如何利用这些技术来构建可靠且可证明安全的 Agent。

演讲嘉宾

Björn Plüster Co-Founder/CTO, ellamind GmbH

Benedikt Droste ellamind