Geek AI 王淑婷编译

谷歌大脑实现更宽广的智能体视野,在Atari2600上可持续超越人类玩家!

深度强化学习的发展衍生出了能够在各种游戏任务中达到人类相当水平的智能体。但是如何让这些智能体持续学习并超越人类玩家却是一大难点。本文作者提出了一种新的深度 Q-网络算法来解决这个问题。

1 引言

近年来,深度强化学习(RL)领域取得了重大进展,催生了能够在各种各样的任务中达到与人类控制能力水平相当的人工智能体,这些任务其中就包括雅达利(Atari)2600 中的一些游戏 [2]。在许多雅达利游戏中,这些智能体学习到的游戏策略远远超过了普通人类玩家的水平 [5,6,8]。然而,在整个游戏过程中持续学习人类水平的策略仍然是一个开放性的问题。

作者认为,一个算法需要解决三个关键问题才能在所有的雅达利游戏中有良好的表现。首要的问题是处理各种奖励分配。算法必须稳定地进行学习,而不必考虑奖励密度和尺度。Mnih 等人 [13] 指出,将奖励的变化范围裁剪到归一化区间 [-1,1] 中是实现稳定性的一种方法。

然而,这种裁剪操作可能会改变最优策略的集合。例如,在保龄球游戏中,智能体不再将击倒一球和十球区别开来。因此,以一种稳定的方式优化不变的奖励信号对于在游戏中持续获得良好性能至关重要的。第二个问题是进行长期推理,这意味着算法应该能够选择可能在长期看来可以预见到较高累积奖励的动作。例如,在「蒙特祖玛的复仇(MONTEZUMA』S REVENGE)」中,个人奖励可能被数百个时间步分隔开来。在标准的 γ 折扣强化学习中,这意味着算法应该能够处理近似于 1 的折扣因子(即直接计算累积奖励)。最后的第三个问题是对马尔可夫过程(MDP)的高效探索。一个高效探索的算法能够在合理的时间内发现具有高累积奖励的长期轨迹,即使在这个轨迹中个人奖励可能是十分稀疏的。虽然以上每个问题都在文献中得到了部分解决,但是没有一种现有的深度强化学习算法能够一次性解决这三个问题。

在本文中,作者提出了一种新的深度 Q-网络「Deep Q-Network(DQN)」算法,专门用来解决这三个问题。为了能够独立于奖励分布进行稳定的学习,作者使用了一种转换后的 Bellman 算子来减小动作-值函数的方差。利用转换后的算子进行学习可以使我们在不考虑密度和尺度的情况下处理不变的环境奖励。作者证明了最优策略在确定性的马尔科夫决策过程中是不变的,并说明了在特定的假设下,该算子是随机马尔科夫决策过程(MDP)的一种收缩形式(即,算法将收敛到一个定点,见 3.2 章)。由于引入了时序一致性(TC)损失,即使折扣因子很大时本文提出的算法也能稳定地进行学习。时序一致性损失可以防止网络过早地泛化到不可见的状态(见 3.3 章),这使作者可以在实际训练中使用像 γ = 0.999 这样高的折扣因子。与其它用于雅达利游戏的深度强化学习方法相比,这将本文提出算法的有效规划范围扩大了一个数量级。最后,本文通过将 Horgan 等人 [8] 提出的分布式经验回放法和 Hester 等人 [7] 提出的「演示深度 Q 学习」算法相结合,提高了 DQN 默认搜索策略的效率。最终的算法架构是一个分布式的 actor-learner 系统,它结合了离线专家演示和在线智能体经验(见 3.4 章)

作者通过实验在 42 个游戏上验证了本文提出的算法,这些游戏已经通过专业人类玩家演示过(见表 5)。在所有游戏中使用相同的超参数,本文提出的算法在 40 个游戏中的表现超过了普通人类玩家,其中在 34 个游戏中超越专业玩家,并至少在 28 个游戏中超过了目前最先进的智能体。此外,本文的算法在具有稀疏奖励的游戏中显著提升了目前最先进模型的水平。本文提出的算法是首个通过「蒙特祖玛的复仇」第一关的算法,并且它还在「PITFALL」游戏中取得了新的最高纪录——3997 分!虽然仅仅使用了 5 个演示学习轨迹,这并没有影响算法在具有密集奖励的游戏中的表现。

图 1:本文提出的计算框架(b)与 Horgan 等人提出的计算框架(a)的对比。

表 1:该表显示了一种方法在测试游戏哪个部分时的表现至少与另一种方法一样好。用于比较的分数是在不加以任何操作的启动方法下得出的。如 4.1 章所述,作者将智能体的得分与普通人类玩家、专业玩家相对比。Ape-X DQfD(更深的模型)在 42 个游戏中,有 40 个游戏的表现超过了普通人。

表 2: 该表显示了本文算法的人为归一化性能和基线。对于每一个游戏,作者将分数归一化为

接着在所有的游戏上对该分数进行聚集(求均值或中值,类似于数据库中的聚集函数)。由于本文仅仅为 57 种游戏中的 42 种提供了演示,所以作者在此分别展示了在 42 种有演示的游戏中的表现,以及 在 57 种用作基线且没有使用演示的游戏中的表现。

图 2:该图显示了随着时间的推移,累计无折扣训练阶段的返回值,并且将最佳专家完成的任务阶段和最佳的 Ape-X DQfD 的任务阶段进行了对比。在游戏「HERO」中,该算法超越了人类专家的表现。在「蒙特祖玛的复仇」中,它以更短的时间取得了与人类专家相匹敌的成绩。然而,在「MS.PACMAN」中,人类专家仍然技高一筹。

图 3:使用标准的网络架构进行模型简化测试的实验结果。不使用专家数据(红线所示)的实验采用了 [8] 中使用的较快探索进度。

图 4:该图显示了当我们将转换后的 Bellman 算子替换为 PopArt 时,以及将时序一致性(TC)损失替换为受限时序差分(TD)更新时,模型性能与本文算法性能的对比。请注意,本图刻度与图 3 中的刻度不同,因为本次实验只运行了 40 小时。

论文:Observe and Look Further: Achieving Consistent Performance on Atari(欲穷千里目,更上一层楼:在 Atari 游戏中获得始终如一的良好性能)

论文地址:https://arxiv.org/pdf/1805.11593.pdf

尽管深度强化学习(RL)领域取得了重大进展,但现有的算法仍然不能在各种任务(如雅达利 2600 游戏)上始终如一地习得与人类水平相当的策略。本文作者指出任何的强化学习算法都需要解决三个主要的问题才能在所有的游戏中取得出色的表现:处理各种各样的奖励分布,进行长期推理,展开高效的探索。在本文中,作者提出了一种新的算法来解决这些问题,能在几乎所有的雅达利游戏中习得与人类水平相当的策略。一种新的转换后的 Bellman 算子使我们的算法能够处理具有各种密度和尺度的奖励。一种附加的时序一致性损失让我们能够使用 γ = 0.999 (而不是 γ = 0.99) 的折扣因子更稳定地训练,同时将有效规划范围扩大一个数量级。作者通过使用人类演示缓解探索问题,这种演示能够指引智能体走向获得奖励的状态。使用 42 种雅达利游戏进行测试时,本文提出的算法使用一组常见的超参数,在 40 种游戏中超越了普通人类的表现。此外,这是第一个通过「蒙特祖玛的复仇」第一关的算法。

理论论文谷歌大脑Atari深度强化学习
1
相关数据
收敛技术
Convergence

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

深度强化学习技术
Deep reinforcement learning

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

超参数技术
Hyperparameter

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

规划技术
Planning

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

强化学习技术
Reinforcement learning

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

shooting
shooting

机器之心编辑

推荐文章
返回顶部