Les agents produisent en continu de grands volumes d'artefacts : code, texte, télémétrie, etc. La plupart des équipes sont bloquées avec des jeux de données statiques et obsolètes. En 2026, grâce aux agents capables de créer des pipelines de données sous forme de code, des jeux de données frais et fiables sont accessibles à tout développeur Python. Nous partagerons comment nous avons construit notre plateforme interne d'évaluation d'agents avec des outils Python open source et l'IA (dlt, LanceDB, Pydantic, Ibis, Hugging Face, et plus).