ICLR 2018最佳论文:基于梯度的元学习算法,可高效适应非平稳环境

于 4 月 30 日开幕的 ICLR 2018 最近公布了三篇最佳论文,分别关注于最优化方法、卷积神经网络和元学习算法。不出所料的是,这三篇最佳论文在 2017 年 11 月公布的评审结果中,都有很高的得分。机器之心以前已经介绍过关于修正 Adam 与球面 CNN 的最佳论文,本文将重点介绍第三篇关于元学习的最佳论文。

这三篇论文在开放式双盲审中都有非常高的评价,它们都被接收为 Oral 论文。其实我们感觉这三篇论文所研究的领域都是非常受关注的主题,首先 Sashank J. Reddi 等人关于优化算法的研究表明了基于历史梯度平方的指数移动均值如何会影响适应性学习率算法的收敛效果,这也是近来很多研究者所困惑的地方。Taco S. Cohen 等研究者对球面 CNN 的研究扩宽了卷积神经网络的应用边界,因而能高效处理无人机和机器人等全向视角。最后 Maruan Al-Shedivat 等研究者提出一种基于梯度的简单元学习算法,该算法适用于动态变化和对抗性的场景,并获得显著高效的适应性智能体。

接下来,是机器之心对第三篇论文主要内容的编译介绍:

摘要

在非平稳环境中根据有限的经验连续地学习和适应对于发展通用人工智能而言至关重要。在本文中,我们将连续适应的问题在 learning-to-learn 框架中重构。我们开发了一种简单的基于梯度的元学习算法,该算法适用于动态变化和对抗性的场景。此外,我们还设计了一种新的多智能体竞争环境 RoboSumo,并定义了迭代适应的游戏,用于测试连续适应的多个层面。研究表明,在少样本机制下,相比反应性的基线算法,通过元学习可以得到明显更加高效的适应性智能体。对智能体集群的学习和竞争实验表明元学习是最合适的方法。

介绍

强化学习 ( RL ) 近期取得了令人瞩目的成果,从玩游戏(Mnih 等,2015;Silver 等,2016)到对话系统的应用(Li 等,2016)再到机器人技术(Levine 等,2016)。尽管取得了一定的进展,但用于解决许多此类问题的学习算法都是为处理静止环境而设计的。另一方面,由于复杂性(Sutton 等人,2007)、动态环境中的变化或系统实时环境的目标变化(Thrun,1998)及存在多个学习智能体(Lowe 等,2017;Foerster 等,2017a)等因素,现实世界往往是非平稳的(Sutton 等, 2007)。非平稳性打破了标准假设,要求智能体在训练和执行时不断适应,以便取得成功。

在非平稳条件下学习是一项挑战。处理非平稳性的典型方法通常是以语境检测(Da Silva 等,2006)及追踪(Sutton 等,2007)为基础,即通过持续微调策略对环境中已经发生的变化做出反应。虽然现代深度强化学习算法能够在某些任务上实现超人类性能,但不幸的是,这种算法采样效率很低。非平稳性仅允许在环境属性改变之前进行有限的交互。因此,它会立即将学习置于少样本机制,这通常使得简单的微调方法变得不切实际。

非平稳环境可以看作是平稳任务的序列,因此我们建议将它作为一个多任务学习问题来处理(Caruana,1998)。learning-to-learn(或元学习)的方法(Schmidhuber,1987;Thrun & Pratt,1998)在少样本机制中特别受欢迎,因为它们可以从少数几个例子中概括出灵活的学习规则。元学习在监督领域展现了有潜力的效果,最近得到了研究界的广泛关注 (如 Santoro 等,2016;Ravi & Larochelle, 2016)。本文提出了一种基于梯度的元学习算法,这种算法类似(Finn 等,2017b)的方法,并适用于非平稳环境中 RL 智能体的连续适应。更具体地说,我们的智能体以元学习的方式学习预测环境的变化并相应地更新其策略。

虽然实际环境中的任何变化都可能带来非平稳性(如智能体的物理变化或特性变化),但是由于紧急行为的复杂性,具有多个智能体的环境特别具有挑战性,并且对于从多人游戏(Peng 等人,2017)到协作无人驾驶舰队的应用具有实际意义(Cao 等,2013)。从任何单个智能体的角度来看,多智能体环境都是非平稳的,因为所有的智能体都在同时学习和改变(Lowe 等,2017)。本文研究了竞争性多智能体环境下连续适应学习对手的问题。

为此,我们设计了 RoboSumo——一个具有模拟物理特性的 3D 环境,允许成对的智能体相互竞争。为了测试连续适应性,我们引入了迭代适应游戏,这是一种新的设置,其中训练有素的智能体在重复游戏的多个回合中与相同的对手竞争,同时允许二者在回合之间更新策略、改变行为。在这种迭代博弈中,从智能体的角度来看,每个回合的环境不同,智能体必须适应这种变化才能赢得博弈。此外,竞争成分的存在使得环境不仅是非平稳的,而且是对抗的,这提供了一个自然的训练课程,并鼓励学习鲁棒的战略(Bansal 等,2018)。

我们以(单个智能体)具有手动非平稳性的移动任务和 RoboSumo 迭代适应游戏上的一些基线评估了我们的元学习智能体。实验结果表明,元学习策略在单个智能体和多智能体环境下的小样本模式下明显优于其他适应方法。最后,我们进行了一个大规模实验,训练具有不同形态、策略结构和适应方法的多种智能体,并使它们通过相互竞争在迭代博弈中进行交互。我们根据智能体在这些游戏中的 TrueSkills 对其进行评估(Herbrich 等,2007),在几次迭代中实现智能体群体的进化——输的智能体会消失,而赢的得到复制。结果表明,具有元学习适应策略的智能体是最合适的。演示适应行为的视频参见以下链接:https://goo.gl/tboqaN。

图 1:(a)多任务强化学习中的 MAML 的概率模型。其中,任务 T、策略π和轨迹τ都是随机变量,并按图中连接的边互相关联。(b)我们的扩展模型可以连续地适应由于环境的非平稳性导致动态变化的任务。上一时间步的策略和轨迹被用于为当前时间步构建新的策略。(c)从φ_i 到φ_i+1 的元更新的计算图。方框表示的是带具体参数的策略图的副本。模型是通过从 L_(T_i+1) 开始的截断反向传播优化的。

算法 1 训练时的元学习;算法 2 执行时的改编

图 2:(a)实验中使用的三类智能体。三个机器人之间的不同之处在于:腿的数量、位置以及大腿和膝盖上的运动限制。(b)不平稳的运动环境。红色腿应用的力矩通过动态变化的因子而扩展。(c)RoboSumo 环境。

图 3:在一轮包含多个 episode 的迭代适应游戏中,一个智能体与对手间的比赛。智能体如果赢得大部分 episode,就等于赢得一轮(输赢用颜色表示)。智能体和对手都可能逐轮(用版本编号来表示)升级自己的策略。

图 4:在 3 个非平稳移动环境中的 7 个连续 episode 的奖励。为了评估适应性策略,我们在每个环境中运行这 7 个 episode,其中每个环境、策略和元更新都在重复迭代前经过了完全重置(重复 50 次)。阴影区域是 95% 置信区间。最好阅读彩图。

图 5:迭代游戏中的不同适应策略对抗 3 个不同预训练对手的胜率结果。在测试时,智能体和对手都从 700 版本开始。对手的版本数在自我对抗学习中随着每个连续回合而不断增加,而智能体只能按给定的有限经验和给定的对手进行适应。每个回合由 3 个事件构成。每个迭代游戏重复 100 次;阴影区域表示 95% 引导置信区间;没有经过平滑化。最好阅读彩图。

图 6:在和学习对手的迭代游戏中,随着每回合事件数量的增加所带来的胜率变化效应。

图 7:性能最好的基于 MLP 和基于 LSTM 的智能体的 TrueSkill 值。TrueSkill 值基于 1000 次迭代适应性游戏的结果(赢、输、平)计算,其中每个游戏包含 100 个连续回合,每个回合有 3 个事件。游戏中的对抗双方从 105 个预训练的智能体群体中随机选取。

图 8:1050 个智能体群体进化 10 代。最好阅读彩图。

理论ICLRICLR 2018论文获奖论文元学习CMUOpenAI
2