GOSIM Paris 2026 est terminé
Merci à tous les participants, conférenciers et sponsors pour cet événement incroyable !
Diapositives Diapositives Album photo Album photo
Filtrer
Atelier Own Your Data

Evaluating Frontier Agents on Economically Valuable Tasks

Date 5 mai Heure 11:40 - 12:00 Lieu Open Stage
Il est évident que les agents IA deviennent de plus en plus performants — mais que faut-il pour qu'ils excellent dans les tâches réelles et quotidiennes qui prédominent dans le travail des gens ? Dans cette présentation, je discuterai de la modélisation d'environnements complexes pour évaluer — et améliorer — la fiabilité et les performances des agents. Je me concentrerai sur la viabilité des déploiements en production pour des tâches réelles, sur l'aspect technique de la construction et de l'exécution d'évaluations dans ces cas à l'aide de Harbor (https://github.com/laude-institute/harbor), et sur la façon dont nous utilisons ces techniques chez ellamind pour construire des agents fiables et dont la sécurité est démontrable.