Vector Institute,多伦多大学,谷歌大脑新研究:「无奖励机制下评估智能体」
强化学习使智能体能够解决未知环境中的挑战性任务。但是,人为创造奖励机制可能很耗时,昂贵并且容易出错,容易造成人为错误。为了加速内在目标的发展,我们在预先收集的智能体行为数据集上追溯计算潜在目标,而不是在线对其进行优化,并通过分析它们之间的相关性对其进行比较。我们研究了七个智能体,三个 Atari 游戏和 3D 游戏 Minecraft 的输入熵,信息增益和授权。我们发现,所有三个内在目标与人类行为相似性度量之间的关联比与任务奖励之间的关联更为紧密。此外,与任务奖励相比,输入熵和信息增益与人类相似性的关联更强,这表明使用内在目标来设计行为与人类参与者相似的智能体。