Atelier Own Your Data

Evaluating Frontier Agents on Economically Valuable Tasks

Date 5 mai Heure 11:40 - 12:00 Lieu Open Stage

Il est évident que les agents IA deviennent de plus en plus performants — mais que faut-il pour qu'ils excellent dans les tâches réelles et quotidiennes qui prédominent dans le travail des gens ? Dans cette présentation, je discuterai de la modélisation d'environnements complexes pour évaluer — et améliorer — la fiabilité et les performances des agents. Je me concentrerai sur la viabilité des déploiements en production pour des tâches réelles, sur l'aspect technique de la construction et de l'exécution d'évaluations dans ces cas à l'aide de Harbor (https://github.com/laude-institute/harbor), et sur la façon dont nous utilisons ces techniques chez ellamind pour construire des agents fiables et dont la sécurité est démontrable.

Intervenants

Björn Plüster Co-Founder/CTO, ellamind GmbH

Benedikt Droste ellamind