人类可以在采取行动前想象后果,这是一种强有力的工具。当杯子放在桌子边缘的时候,我们会停下来思考它是否稳定,是否有掉落的危险。在想象结果的基础上,我们可以挪动杯子,防止它掉落摔碎。这种形式的推理本质上是「想象力」,它是人类特有的能力,也是我们日常生活中所倚重的工具。近日,DeepMind发表的研究博客介绍了该机构最新的研究成果,在新编码器的作用下,人工智能学会了想象和计划,大大提高了执行任务的效率。
如果我们的算法想要发展出同样复杂的行为,它们必须具备「想象」和推理的能力。除此之外,它们还必须能够运用这些知识来构建计划。我们已经在这一领域里看到了一些令人瞩目的成就——特别是像 AlphaGo 这样的程序,它可以使用「内部模型」来分析行动如何导致未来的结果,以便进行推理和计划。这些内部模型工作起来非常有效,因为围棋这样的环境是「完美」的——它有着明确的规则,允许智能体准确预测所有可能性。但真实世界是复杂的,规则没有这么明显,而无法预测的问题也时有发生。即使对于最聪明的人工智能来说,想象这样复杂的事情也是一件漫长而耗费资源的任务。
能够处理不完美的模式,学习并应用针对目前状态的计划策略是重要的研究课题。
在 DeepMind 刚刚发表的两篇论文中,研究人员展示了一系列基于想象力计划的新方法。我们还介绍了为人工智能代理学习和构建计划以最大化任务效率的新方法的体系结构。这些架构对于复杂和不完美的环境是高效的,可以采用灵活的策略来利用他们的想象力。
想象力加持的智能体
DeepMind 介绍的人工智能受益于「想象力编码器」——这是一种神经网络,它会学习并提取任何对未来决策有用的信息,而忽略不相关的。这些智能体具有许多不同的特点 :
- 它们会学习去解释自己的内部模拟。这可以让它们学会对动态变化的环境建模,即使这些动态仍不完美。
- 它们可以有效地利用自己的想象力。他们会通过调整想象轨迹的数量来适应问题。通过编码器,解决问题的效率得到了提高——编码器可以通过想象获取奖励之外的额外信息——这些轨迹中的一些可能会存在有意义的信息,即使它们都无法通向奖励机制的高回报。
- 它们可以学习构建计划的不同策略。它们可以通过选择继续目前的思路或重新启动来选择策略。此外,他们也可以使用不同的想象模式,其中包含不同的准确度和计算资源消耗量。这为系统提供了广泛而又有效的策略,不用再去试图去寻找一种适应于多种情况的方法了——后者可能会限制人工智能在不完美环境中的适应性。
测试我们的架构
我们测试了新架构在不同任务中的表现,其中包括推箱子和一种宇宙飞船导航游戏。两种游戏都需要正向计划和推理,这让他们成为了测试人工智能的完美环境。
- 在推箱子游戏中,人工智能必须把箱子推至目标位置上。因为箱子只能通过推的方式移动,很多行为将导致不可逆的结果(如果箱子被推到了角落里,它就动不了了)。
- 在宇宙飞船任务中,人工智能必须通过固定次数的动作激活推进器来稳定航线。它需要面对几个行星引力的扰动,这让游戏变成了一个高难度、非线性的复杂任务。
- 为了限制 AI 在两个任务中的试错次数,每一级都由程序生成,人工智能只能做一次尝试;这鼓励了人工智能在真实环境中执行任务前思考不同的策略。
想象力加持的智能体玩推箱子游戏
以上视频中,一个智能体在不了解游戏规则的情况下,根据像素表示(pixel representation)玩推箱子游戏。我们可以看到,在特定的时间点,智能体可以想象到五种可能的未来。基于这些信息,智能体决定采取何种措施。对应的轨迹就会被突出显示。
一个智能体在玩宇宙飞船导航游戏。红线代表在任务环境中的真实轨迹,蓝线和绿线代表智能体想象的轨迹。
想象力加持的智能体在这两个任务中的表现都优于缺乏想象力的基准:前者用更少的经验学习,同时用对环境建模的方式处理环境中的不完美。智能体能够从内部模拟中学习更多知识,因此它们能够用比常规搜索方法(如蒙特卡洛树搜索)更少的想象步骤来解决问题。
当我们添加一个额外的「管理者」组件来帮助构建计划的时候,智能体可以用更少的步骤更高效地完成任务。在飞船任务中,智能体可以判断环境中引力作用的强弱,这需要智能体完成不同数量的想象步骤。当智能体面对一个环境的多个模型,且每个模型的质量和成本效益各不相同时,它会学习做出有意义的取舍。最后,如果智能体每做出一个动作,想象的计算成本会随之增加,则智能体提前想象多个连续动作的效果,然后基于该计划进行下一步行动,无需再次进行想象。
能够处理不完美的模型并学习调整计划来适应当前情形是很重要的研究课题。DeepMind 发表的这两篇论文,以及 Hamrick 等人之前的工作,都在思考这些问题。基于模型的强化学习和计划是当前研究的热门领域,但是我们还需要更深入的分析和研究,为丰富基于模型的智能体提供可扩展的解决方案,让人工智能可以像人类一样使用想象力对未来进行推理和规划。