开源机器人

AI Agents Learn Invisible Shortcuts

日期 5月6日时间 14:25 - 14:50 地点 Founders Cafe

经典的RL智能体通常并非通过真正的理解来实现"超人"表现，而是通过利用环境中隐藏的捷径。就像"聪明的汉斯"——那匹看似会做算术但实际上只是在读取人类暗示的马——我们的模型投射出一种能力的假象。由于这些捷径隐藏在不透明的神经网络中，智能体可能在面对微小的任务修改时悄然失败或完全崩溃。本次演讲探讨了捷径学习的普遍危险，并提出了一条前进路径：优先考虑可解释性。通过使用LLM和神经符号方法将黑箱策略提炼为透明的、人类可读的程序，我们可以揭示这些隐藏的缺陷，审计智能体行为，并构建真正鲁棒的AI系统。

演讲嘉宾

Quentin Delfosse Agentic AI Researcher, Google Intrinsic