DeepMind 联合澳大利亚国立大学推出新研究,利用「因果影像图」解决奖励篡改问题
DeepMind 联合澳大利亚国立大学推出了一篇名为「强化学习中的奖励篡改问题及解决方案 - 因果影响图透视」的新研究。以下为该研究的完整摘要:一个任意的强化学习代理能否被人类用户所控制?或者说,拥有足够智力的智能体是否能够不可避免地寻找缩短它们获得奖励信号路径的方法?这个问题将会影响强化学习的规模,以及是否必须开发替代范式才能建立安全的人工智能这一问题。本研究使用了一种直观而精确的名为「因果影响图」的图形模型来正式确定奖励篡改问题。除此以外,研究人员还描述了强化学习目标的一些调整,以防止奖励篡改的激励。研究人员利用了最近开发的图形标准来验证解决方案,以从因果影响图中推断出代理激励。