Yufeng Xiong作者Xiang Chen编辑Panda翻译

深度元强化学习:快速适应新任务

DeepMind 和伦敦大学学院的一项研究提出了深度元强化学习,可以快速适应新任务。机器之心技术分析师对这项研究进行了解读,本文为解读的中文版。

论文链接:https://arxiv.org/abs/1611.05763

英文解读:https://syncedreview.com/2017/03/27/learning-to-reinforcement-learn/

1引言

强化学习(RL)已经在 Atari 游戏和围棋等很多大规模的复杂环境中取得了人类级和超人级的表现。但是,与人类水平相比,之前的深度强化学习系统还存在至少两个缺点:

  • 深度强化学习通常需要大量训练数据,而人类学习者只需相对很少的经历就能达到合理的表现。
  • 深度强化学习系统通常专用于一个有限制的任务领域,而人类学习者可以灵活地适应不断变化的任务条件。

在这篇论文中,研究者介绍了一种被称为深度元强化学习(meta-RL)的全新方法,可快速适应新任务。其关键思想是使用标准的深度强化学习技术来训练循环神经网络,这将能实现其自己的独立的强化学习流程。

2 方法

2.1 背景:循环神经网络中的元学习

在机器学习背景中,元学习是指学习去学习(learn to learn)的过程。不正式地说,元学习算法使用经历来修改学习算法的特定方面或学习方法本身,使得修改后的学习器在从额外的经历学习方面比原学习器更优。[1]

Hochreiter 在研究 [2] 中用下图描述了元学习系统:

图 1:这个元学习系统由监督系统和次级系统组成(正在处理序列元素 j)。其中次级系统是一个循环网络。伴随其的学习算法代表固定的监督系统。目标函数参数 x 被映射成结果 y,即 y(j)=f(x(j))。前一个函数结果 y(j-1) 也被提供给了次级系统以便其能够确定该次级模型之前的误差。次级和监督输出都是一样的。

上述元学习系统有两大要点:

  1. 循环网络的动态可以代表每个新任务中学习的基本过程。
  2. 由于嵌入偏差,在处理同一类型的新任务时,在该循环网络中实现的学习过程可以有效地学习。

2.2 深度元强化学习

在 Hochreite 的监督式方法 [2] 中,用于实现学习算法的循环网络的动态与用于训练网络权重的网络完全独立。不同于这种方法,这篇论文的作者思考了将这种方法应用于强化学习中的效果。其中,所学习到的强化学习流程与用于训练网络权重的算法可以明显不同,尤其值得一提的是,所学习到的强化学习过程可以实现其自己的探索方法。

2.3 形式描述

首先,研究者训练了一个有适当结构的智能体(其中嵌入了一个循环神经网络),以最大化在所有步骤和 episode 中所得到的奖励总和,这些奖励是通过与从一个先验分布(D)中取出的马尔可夫决策过程(MDP)交互而得到的。训练之后,智能体的策略就固定了,研究者想要证明元强化学习在从 D 或稍微修改后的 D 中取出的 MDP 上有良好的平均表现。因为所学习到的智能体使用了循环神经网络,因此存在历史依赖性,所以在遇到任何新的 MDP 环境时,它可以调整策略以优化对该任务的奖励。

3 实验

为了了解元强化学习是否可用于学习探索和利用之间的自适应平衡,以及元强化学习是否能够学习通过利用任务结构来提升效率,研究者在赌博机任务上执行了 4 个实验,在马尔可夫决策问题上执行了 2 个实验。为了进行比较,研究者还回顾了近期一篇相关论文的实验结果 [10],该论文表明元强化学习可以扩展用于具有丰富视觉输入的大规模导航任务。

在所有实验中,智能体架构都以一个循环神经网络为中心,得到表示离散动作的 softmax 输出。其它架构的细节因具体实验而各不相同,如表 1 所示:

表 1:超参数列表。βe=熵正则化损失系数;在实验 1-4 中,βe 在训练过程中从 1.0 退火到 0.0。βv=价值函数损失系数(Mirowski et al., 2016)。r=奖励,a=上一个动作,t=当前时间步骤,x=当前观察值。实验 1:具有独立型摇臂的赌博机;实验 2:具有依赖型摇臂 I 的赌博机;实验 3:具有依赖型摇臂 II 的赌博机;实验 4:不断变动的赌博机;实验 5:两步式任务(Two-Step Task);实验 6:学习抽象的任务结构

所有的强化学习实验都是使用 Advantage Actor-Critic 算法 [9, 10],下图展示了这种架构:

图 2:带有循环的 Advantage Actor-Critic。在所有架构中,奖励和最后的动作都是 LSTM 的额外输入。对于非赌博机环境,观察值要么以 one-hot 形式也被输入 LSTM,要么就会穿过一个编码器模型(这个编码器有三层:两个卷积层和之后的一个全连接层;卷积层的第一层有 16 个 8×8 过滤器,步幅为 4;第二层有 32 个 4×4 过滤器,步幅为 2;全连接层有 256 个单元,之后应用了 ReLU 非线性。详情参阅 Mirowski et al. (2016)。)。对于赌博机实验,当前时间步骤也被用作输入。π=策略;v=价值函数。A3C 是 advantage actor-critic 算法的分布式多线程异步式版本(Mnih et al., 2016);A2C 是单线程的。(a)实验 1-5 中使用的架构。(b)实验 6 中使用的卷积 LSTM 架构。(c)实验 6 和 7 中使用的带有卷积编码器的堆叠式 LSTM 架构。

3.1 赌博机问题

在这篇论文中,为了评估元强化学习,研究者首先研究了 4 种不同的赌博机问题。给定一个环境分布,以相同的方式独立地得到一组赌博机环境,如果在这个环境上训练得到的赌博机算法在从该分布或稍有变化的分布中提出的问题上也表现良好,那么我们可以认为元强化学习能学习先验依赖型赌博机算法。

研究者报告的结果是累积期望遗憾值,这衡量了在玩次优的摇臂时所得到的损失。

3.1.1 具有独立摇臂的赌博机

研究者首先考虑了简单的双臂赌博机任务,其中摇臂分布是独立的伯努利分布,以了解元强化学习相比于 Thompson 采样、UCB 和 Gittins 等理论上最优的模型的行为。从实验结果(图 3a)看,元强化学习优于 Thompson 采样和 UCB,但表现不及 Gittins。

图 3:在摇臂独立和相关的赌博机上的表现。这里报告的指标是 150 个测试 episode 的累积期望遗憾值 R_T,并针对每个智能体任务配置的前 5 个超参数进行了平均,这里的前 5 是根据在 150 个测试 episode 的单独集合上的表现确定的。(a)在具有独立摇臂(分布 D_i)的赌博机上训练和评估的 LSTM A2C;并与理论上最优的模型进行了比较。(b)执行具有中等难度任务(分布 D_m)的单个智能体。这里给出了 300 episode 实验中次优的摇臂拨动。(c)在具有依赖型的均匀摇臂(分布 D_u)的赌博机上训练和评估的 LSTM A2C。(d)在中等赌博机任务(D_m)上训练,在简单任务(D_e)上测试的结果。(e)在中等赌博机任务(D_m)上训练,在困难任务(D_h)上测试的结果。(f)训练和测试环境(D_i、D_u、D_e、D_m、D_h)的所有可能组合的累积遗憾值

3.1.2 带有依赖型摇臂 I 的赌博机

元强化学习能得到可以利用训练分布中的一致性结构的强化学习算法,为了凸显这一点,研究者在一个更为结构化的赌博机任务中根据第 1 个实验训练了循环系统;在这个任务中,摇臂奖励的分布是互相相关的。结果表明(图 3b-f),在结构化的环境中训练的智能体表现与 Gittins 相当,并优于在测试中所有结构化任务中的独立摇臂上训练的智能体。应该强调的一点是之前在任何结构化的分布的训练都会有损智能体在独立摇臂任务上的测试表现(图 3f)。

3.1.3 带有依赖型摇臂 II 的赌博机

人类和动物在决策时为了获得信息可以牺牲能够立即获得的奖励。类似地,研究者研究了这样一个问题:以短期奖励为代价来获得信息,以进一步强化依赖型摇臂赌博机问题。结果如图 4 所示,表明先采样有信息的摇臂一次然后再使用所得到的信息来利用高价值的目标摇臂,智能体能够成功学习到最优的长期策略。

图 4:所学习到的强化学习过程能以即时奖励为代价来获取信息,从而提升长期回报。在这项任务中,一个摇臂的回报更低,但能提供有关其它 10 个摇臂中哪个回报最高的完美信息(perfect information)。其余的 9 个摇臂回报居中。有信息的摇臂的指数在不同 episode 之间是固定的。在第一次试验时,训练后的智能体会采样这个有信息的摇臂。在后续的试验中,智能体会使用其获得的信息来决定利用回报最高的摇臂。Thompson 采样和 UCB 不能利用摇臂之间的依赖关系。

3.1.4 不断变动的赌博机

此外,研究者还考虑了非静态的赌博机问题,即奖励概率会在一个 episode 过程中变化,且在不同 episode 中有不同的变化率。因此,智能体不仅要追踪最优的摇臂,还要推断 episode 的变化率并据此调整它的学习率。

研究者在一个双臂式伯努利赌博机任务中测试了该智能体,以评估元强化学习能否学习到这样灵活的强化学习策略。如图 5b 所示,结果表明元强化学习得到的遗憾值低于 UCB、Thompson 采样和一个固定学习率(α=0.5)的 Rescorla-Wagner(R-W)学习器。

图 5:所学习到的强化学习过程会根据环境调整自己的学习率。(a)在具有完美反相关的伯努利奖励概率(p_1 和 1-P_1)的双臂赌博机上训练的智能体。这里给出了两个示例 episode。p1 在一个 episode 内变化(黑色实线),其中在 high vol episode 有快速的泊松跳变速率,在 low vol episode 则速率较慢。(b)训练后的 LSTM 智能体优于 UCB、Thompson 采样和一个固定学习率(α=0.5)的 Rescorla-Wagner(R-W)学习器(这是在这个环境的分布上平均最优的)。(c,d)通过最大似然将 R-W 模型与 R-W(作为对照)和 LSTM 的行为拟合。在 LSTM 的数据上,包含一个会随 episode 变化的学习率的模型(ab 和 abe)优于没有这些自由参数的模型,但在 R-W 的数据上却并非如此。添加一个失效参数能进一步提升在 LSTM 的数据上的拟合(be 和 abe),这说明通过 LSTM 实现的算法并非是 R-W。(e,f)LSTM 的估计学习率在易变型 episode 中更高,而 R-W 却并非如此。为了显示重叠的点,图中添加了少许抖动。

3.2 马尔可夫决策问题

为了进行比较,研究者还研究了马尔可夫决策过程(MDP),其中动作会影响任务的基础状态,从而进一步研究了元强化学习适应任务结构中的不变性的方式。第 5 个实验源自神经科学,被称为“两步式任务”,其中使用无模型强化学习的训练产生的行为能反映基于模型的控制。在第 6 个实验中,研究者研究了一个需要智能体学习抽象任务结构的元学习任务,这最初是动物学习背景下研究的问题。为了展示完整图景,研究者还回顾了导航领域近期报告的相关实验 [10],表明元强化学习能通过基本的无模型强化学习算法来求解困难的强化学习问题。

4 相关研究

Schmidhuber 在 1996 年的研究 [3] 引入了元强化学习,但不涉及到神经网络实现。2001 年,Hochreiter 的研究开创了以监督方法使用循环网络来执行元学习的先河。Santoro 在 2016 年的研究 [4] 表明了使用一个外部记忆结构的实用性,从而对这种技术进行了扩展。近期已有很多使用神经网络来学习优化过程的研究,其中使用了很多不同的创新元学习技术 [5, 6, 7, 8]。

与此同时,也有很多研究使用了深度强化学习来训练用于导航任务(比如迷宫任务、目标定位)的循环神经网络,其中任务的结构会随 episode 而变化 [9,10]。近期的一项关注相对非结构化的任务分布的相关研究 [11] 是对本论文的很好补充。

5 总结

这篇论文提出了一种全新的方法,即深度元强化学习(meta-RL),其涉及到三个要素:(1)使用深度强化学习算法来训练一个循环神经网络;(2)包含一系列互相相关的任务的训练集;(3)包含所选择的动作和在之前时间段内受到的奖励的网络输入。

根据实验结果,研究者相信深度元强化学习在差异很大但结构化的环境中有可能生成处于无模型强化学习和基于模型的强化学习之间的灰色区域的强化学习过程。与此同时,深度元强化学习可能在神经科学领域内具有重要意义,近期的研究 [12] 表明深度元强化学习有助于理解多巴胺和前额叶皮层在生物强化学习中各自的作用。

6 分析师简评

 在这项研究中,主要关注结构化的任务分布(比如依赖型赌博机问题和学习抽象的任务结构)是一大局限;相对而言,相关研究 [11] 则主要关注非结构化任务分布。尽管学习到的是一个辅助的单独的强化学习算法,但它的配置方式使其能够利用训练域中的结构,这意味着它可以特定地学习如何更好地在所呈现的数据上学习。基于这一想法,未来还有很多可探索的方向。近期的一项研究 [13] 就使用了强化学习算法来搜索最优的 RNN 结构。此外,我们也希望看到研究者能将这些思想用于解决数据挖掘和机器学习领域的超参数优化问题,产出更多出色的研究成果。

参考文献

 1.  http://www.scholarpedia.org/article/Metalearning

2.  Hochreiter, S., Younger, A.S. and Conwell, P.R., 2001, August. Learning to learn using gradient descent. In International Conference on Artificial Neural Networks (pp. 87-94). Springer Berlin Heidelberg.

3.  urgen Schmidhuber, J., Zhao, J. and Wiering, M., 1996. Simple principles of metalearning.

4.  Adam Santoro, Sergey Bartunov, Matthew Botvinick, Daan Wierstra, and Timothy Lillicrap. Meta-learning with memory-augmented neural networks. In Proceedings of The 33rd International Conference on Machine Learning, pages 1842–1850, 2016. 

5.  Marcin Andrychowicz, Misha Denil, Sergio Gomez, Matthew W Hoffman, David Pfau, Tom Schaul, and Nando
 de Freitas. Learning to learn by gradient descent by gradient descent. arXiv preprint arXiv:1606.04474, 2016. 

6.  Yutian Chen, Matthew W Hoffman, Sergio Gomez, Misha Denil, Timothy P Lillicrap, and Nando de Freitas.
 Learning to learn for global optimization of black box functions. arXiv preprint arXiv:1611.03824, 2016. 

7.  Ke Li and Jitendra Malik. Learning to optimize. arXiv preprint arXiv:1606.01885, 2016.

8.  Barret Zoph and Quoc V Le. Neural architecture search with reinforcement learning. arXiv preprint arXiv:1611.01578, 2016.

9.  Jaderberg, M., Mnih, V., Czarnecki, W.M., Schaul, T., Leibo, J.Z., Silver, D. and Kavukcuoglu, K., 2016. Reinforcement learning with unsupervised auxiliary tasks. arXiv preprint arXiv:1611.05397.

10.  Piotr Mirowski, Razvan Pascanu, Fabio Viola, Hubert Soyer, Andy Ballard, Andrea Banino, Misha Denil, Ross Goroshin, Laurent Sifre, Koray Kavukcuoglu, Dharshan Kumaran, and Raia Hadsell. Learning to navigate in complex environments. arXiv preprint arXiv:1611.03673, 2016. 

11. Yan Duan, John Schulman, Xi Chen, Peter L. Bartlett, Ilya Sutskever, and Pieter Abbeel. Rl2: Fast reinforcement learning via slow reinforcement learning. arXiv preprint arXiv:1611.02779, 2016. 

12. Jane X Wang, Zeb Kurth-Nelson, Dhruva Tirumala, Joel Leibo, Hubert Soyer, Dharshan Kumaran, and Matthew Botvinick. Meta-reinforcement learning: a bridge between prefrontal and dopaminergic function. In Cosyne Abstracts, 2017.

13. Zoph, B. and Le, Q.V., 2016. Neural architecture search with reinforcement learning. arXiv preprint arXiv:1611.01578.

技术分析强化学习
1
暂无评论
暂无评论~