Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Andrew Ilyas等作者路 思源编译

深度策略梯度算法是真正的策略梯度算法吗?

近期深度强化学习取得了很多成功,但也存在局限性:缺乏稳定性、可复现性差。来自 MIT 和 Two Sigma 的研究者重新检验了深度强化学习方法的概念基础,即目前深度强化学习的实践多大程度上反映了其概念基础框架的原则?该研究重点探讨深度策略梯度方法。

深度强化学习是现代机器学习最为人所知的成就,它造就了 AlphaGO 这样广为人知的应用。对很多人来说,该框架展示了机器学习对现实世界的影响力。但是,不像当前的深度(监督)学习框架,深度强化学习工具包尚未支持足够的工程稳定性。的确,近期的研究发现当前最优的深度强化学习算法对参数选择过于敏感,缺乏稳定性,且可复现性差。

这表明或许需要重新检验深度强化学习方法的概念基础,准确来说,该研究要解决的重要问题是:目前深度强化学习的实践多大程度上反映了其概念基础框架的原则?

该论文重点研究深度策略梯度方法,这是一种广泛使用的深度强化学习算法。研究目标是探索这些方法的当前最优实现多大程度上体现了通用策略梯度框架的关键基元。

该论文首先检验重要的深度策略梯度方法近端策略优化(PPO)。研究发现 PPO 的性能严重依赖于非核心算法的优化,这表明 PPO 的实际成功可能无法用其理论框架来解释。

这一观察促使研究者进一步检查策略梯度算法及其与底层框架之间的关系。研究者对这些算法在实践中展示的关键强化学习基元进行了细致地检查。具体而言,研究了:

  • 梯度估计(Gradient Estimation):研究发现,即使智能体的奖励有所提升,用于更新参数的梯度估计通常与真实梯度不相关。

  • 价值预测(Value Prediction):实验表明价值网络能够训练并成功解决监督学习任务,但无法拟合真正的价值函数。此外,将价值网络作为基线函数仅能稍微降低梯度估计的方差(但能够显著提升智能体的性能)。

  • 最优化 Landscape:研究发现最优化 Landscape 通常无法反映其真正奖励的潜在 Landscape,后者在相关的采样方案(sample regime)中通常表现不佳。

  • 置信域:研究发现深度策略梯度算法有时会与置信域产生理论冲突。实际上,在近端策略优化中,这些冲突来源于算法设计的基础问题。

研究者认为以上问题以及我们对相关理论知识的缺乏是深度强化学习脆弱性和低复现性的主要原因。这表明构建可信赖的深度强化学习算法要求抛弃之前以基准为中心的评估方法,以便多角度地理解这些算法的非直观行为。

论文:Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms?

论文链接:https://arxiv.org/pdf/1811.02553.pdf

摘要:本文研究了深度策略梯度算法对促进其发展的底层概念框架的反映程度。我们基于该框架的关键要素对当前最优方法进行了精细分析,这些方法包括梯度估计、价值预测、最优化 landscape 和置信域分析。我们发现,从这个角度来看,深度策略梯度算法的行为通常偏离其概念框架的预测。我们的分析开启了巩固深度策略梯度算法基础的第一步,尤其是,我们可能需要抛弃目前以基准为中心的评估方法。

检查深度策略梯度算法的基元

梯度估计的质量

策略梯度方法的核心前提是恰当目标函数上的随机梯度上升带来优秀的策略。具体来说,这些算法使用(代理)奖励函数的梯度作为基元:

这些方法的理论背后的底层假设是,我们能够获取对梯度的合理估计,即我们能够使用有限样本(通常大约 103 个)的经验平均值准确估计上面的期望项。因此研究者对实践中该假设的有效性很感兴趣。

我们计算出的梯度估计准确度如何?为了解决该问题,研究者使用了评估估计质量最自然的度量标准:经验方差(empirical variance)和梯度估计向「真正」梯度的收敛情况。

图 2:梯度估计的经验方差在 MuJoCo Humanoid 任务中可作为状态-动作对关于数量的函数,x 轴为状态-动作对,y 轴是梯度估计的经验方差。

图 3:MuJoCo Humanoid 任务中梯度估计向「真正」期望梯度的收敛情况。

价值预测

图 4:对于训练用于解决 MuJoCo Walker2d-v2 任务的智能体,在留出状态-动作对上的价值预测质量(度量指标为平均相对误差 MRE)。

探索最优化 landscape

策略梯度算法的另一个基础假设是对策略参数使用一阶更新可以带来性能更好的策略。因此接下来我们就来看该假设的有效性。

图 6:在 Humanoid-v2 MuJoCo 任务上,TRPO 的真正奖励函数 Landscape。

图 8:在 Humanoid-v2 MuJoCo 任务上,PPO 的真正和代理奖励函数 Landscape。

置信域的优化

图 9:对于训练用于解决 MuJoCo Humanoid 任务的智能体,每一步的平均奖励、最大速率(maximum ratio)、平均 KL 和 maximum versus mean KL 情况。

深度强化学习奠定更好的基础

深度强化学习算法根植于基础稳固的经典强化学习框架,在实践中展示了巨大的潜力。但是,该研究调查显示,该底层框架无法解释深度强化学习算法的很多行为。这种分裂妨碍我们深入理解这些算法成功(或失败)的原因,而且成为解决深度强化学习所面临重要挑战的极大障碍,比如广泛的脆弱性和薄弱的可复现性。

为了解决这种分类,我们需要开发更加贴近底层理论的方法,或者构建能够捕捉现有策略梯度算法成功原因的理论。不管哪种情况,第一步都要准确指出理论和实践的分岔点。这部分将分析和巩固前一章的发现和结果。

梯度估计。上一章的分析表明策略梯度算法使用的梯度估计的质量很差。即使智能体还在提升,此类梯度估计通常与真正的梯度几乎不相关(见图 3),彼此之间也不相关(见图 2)。这表明遵循现有理论需要算法获取更好的梯度估计。或者,我们需要扩展理论,以解释现代策略梯度算法为什么在如此差的梯度估计情况下还能取得成功。

价值预测。研究结果说明两个关键问题。一,尽管价值网络成功解决了接受过训练的监督学习任务,但它无法准确建模「真正」的价值函数。二,将该价值网络作为基线会降低梯度方差。但与「真」价值函数提供的方差减少程度对比来说则太少了。这些现象促使我们发问:建模真价值函数的失败是在所难免的吗?价值网络在策略梯度方法中的真正作用是什么?

最优化 Landscape。由上一章可知,现代策略梯度算法的最优化 Landscape 通常无法反映底层真正奖励的 Landscape。事实上,在策略梯度方法使用的采样方案中,真奖励的 Landscape 有噪声,且代理奖励函数通常具备误导性。因此我们需要深入理解为什么这些方有这么问题还能成功,更宽泛一点来看,如何更准确地展现真奖励函数的 Landscape。

置信域近似。该研究的发现表明策略需要局部类似可能存在大量原因,包括带噪声的梯度估计、较差的基线函数和代理 Landscape 未对齐。底层理论的置信域优化不仅未察觉到这些因素,将该理论转换成高效算法也非常困难。因此深度策略梯度方法放松对置信域的约束,这使得其性能难以理解和分析。因此,我们需要一种更加严格地执行置信域的技术,或者对于置信域放松的更严谨理论。

理论深度强化学习强化学习深度策略梯度MIT
2
相关数据
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~