Evaluating Frontier Agents on Economically Valuable Tasks
Date5 maiHeure11:40 - 12:00Lieu Open Stage
Il est évident que les agents IA deviennent de plus en plus performants — mais que faut-il pour qu'ils excellent dans les tâches réelles et quotidiennes qui prédominent dans le travail des gens ? Dans cette présentation, je discuterai de la modélisation d'environnements complexes pour évaluer — et améliorer — la fiabilité et les performances des agents. Je me concentrerai sur la viabilité des déploiements en production pour des tâches réelles, sur l'aspect technique de la construction et de l'exécution d'évaluations dans ces cas à l'aide de Harbor (https://github.com/laude-institute/harbor), et sur la façon dont nous utilisons ces techniques chez ellamind pour construire des agents fiables et dont la sécurité est démontrable.