GOSIM Paris 2026 est terminé
Merci à tous les participants, conférenciers et sponsors pour cet événement incroyable !
Diapositives Diapositives Album photo Album photo
Filtrer
Open Compute pour l'IA Agentique (FlagOS)

Bridging AI Evaluation and Real-World Deployment: Place-Based Evaluation Testbeds for High-Trust Public Domains

Date 5 mai Heure 15:15 - 15:35 Lieu Central Room
À mesure que les systèmes d'IA évoluent de modèles autonomes vers des déploiements utilisant des outils, orientés flux de travail et de plus en plus agentiques, l'évaluation doit aller au-delà de la comparaison de benchmarks et des scores de tâches statiques. Cette présentation propose des bancs d'essai d'évaluation ancrés dans un lieu, conçus selon une approche de gouvernance prioritaire, pour faire le pont entre l'évaluation de l'IA et le déploiement réel dans des domaines publics à haute confiance tels que la culture, l'éducation et les contextes socio-écologiques liés à l'eau.

L'argument central est que la performance sur les benchmarks seule ne montre pas si un système est prêt pour un déploiement de niveau institutionnel. Dans les contextes réels, la qualité du système dépend non seulement de l'exactitude des réponses, mais aussi de la traçabilité, la robustesse, l'auditabilité, la préparation documentaire et le comportement sûr sous contraintes contextuelles. Pour combler cet écart, la présentation introduit une architecture de banc d'essai basée sur une couche de connaissances gouvernée plutôt que sur une génération non contrainte.

Le pipeline proposé est : rencontre de terrain → co-curation → couche de connaissances gouvernée → compagnon IA → boucle de rétroaction supervisée. Cela crée un environnement de recherche contrôlé dans lequel les sorties peuvent être évaluées par rapport à des sources curées, une logique de provenance, des conditions d'accès et des voies de correction. Il soutient donc l'évaluation non seulement de la qualité des réponses, mais aussi des propriétés pertinentes pour le déploiement dans des conditions réalistes face au public.

Comme environnement de référence initial, la présentation utilise Tihany (Hongrie), un contexte paysager lié au patrimoine et à l'eau, pour illustrer comment les couches de connaissances gouvernées peuvent soutenir un déploiement d'IA d'intérêt public plus contrôlable et responsable. La dimension eau connecte également le banc d'essai à Source2Sea : Bartók 3.0 Connectivity (2026-2031), une Action de la Décennie des Océans de l'ONU explorant les systèmes culturels et hydriques liés.

L'affirmation plus large est que les bancs d'essai d'évaluation ancrés dans un lieu peuvent compléter les initiatives d'évaluation ouverte en fournissant des environnements réels dans lesquels la capacité du modèle, l'orchestration du système et la préparation au déploiement sociétal peuvent être évaluées ensemble.