Les agents RL classiques atteignent souvent des performances « surhumaines » non pas grâce à une véritable compréhension, mais en exploitant des raccourcis cachés dans leurs environnements. À l'image de « Hans le Malin », le cheval qui semblait faire de l'arithmétique mais ne faisait que lire les indices humains, nos modèles projettent une illusion de compétence. Parce que ces raccourcis sont dissimulés dans des réseaux neuronaux opaques, les agents peuvent échouer silencieusement ou s'effondrer complètement face à des modifications triviales des tâches. Cette présentation explore le danger omniprésent de l'apprentissage par raccourcis et propose une voie à suivre : privilégier l'interprétabilité. En utilisant les LLM et des approches neuro-symboliques pour distiller les politiques boîte noire en programmes transparents et lisibles par l'humain, nous pouvons démasquer ces défauts cachés, auditer le comportement des agents et construire des systèmes d'IA véritablement robustes.