陈禹作者萝卜兔编辑整理

论文分享 | 在非平稳和竞争环境中的元学习持续适应

持续地学习和适应非平稳环境中有限经验的能力是通向智能的重要里程碑。本文将持续适应问题转化为Learning-to-learn框架,并开发了一个简单的基于梯度的元学习算法来适应动态变化和对抗场景。此外,本文设计了一个多代理的竞争环境,RoboSumo,并定义迭代的适应游戏用于测试持续适应的各个方面。本文证明了元学习比反应基准在few-shot方法中有明显更有效的适应力。


方法
代理必须从环境改变之前收集的有限经验中学习,因此,本文在基于梯度的模型不可知元学习(MAML)的基础上构建方法,该方法已经在few-shot环境中获得成功。在这一部分,本文在概率视角上重新得到用于多任务强化学习的MAML,并在之后推广到动态变化的任务上。
MAML的概率视角

假设给定一个任务的分布D(T),每一个任务T是一个元组:是一个特定任务的损失函数,它将一个轨迹映射到一个损失值。定义了在任务T中环境的马尔科夫动态过程。H记为准线。观测,动作,对应观测空间X和动作空间A的元素。轨迹τ的损失是负积累奖励(公式1):

元学习的目标是找到一个程序,该程序能从D(T)采样得到的任务T中获得有限经验,并产生一个好的策略来解决它。更形势地表述为,从任务分布T~D(T)中按策略查询到长度为K的轨迹(记为)后,我们想要构建一个新的、任务特定的策略,以最小化任务T上的期望损失。具体的而言,MAML利用关于Ɵ的的梯度来构建任务特定的策略参数Φ(公式2):

我们称公式2为α步适应性更新。适应性更新被Ɵ参数化,并通过最小化任务分布D(T)的期望损失(公式3)优化:

这里是由获得的相应轨迹。


通常,我们认为任务、轨迹、策略作为随机变量(如图1a),此处Φ由某种条件分布生成。为了优化公式3,我们可以使用策略梯度方法,的梯度如下所示(公式4):

期望损失LT可以被信任区域策略(TRPO)或者接近策略(PPO)优化。


基于元学习的持续适应

在典型的多任务环境中,我们对任务分布D(T)不做假设。当环境非平稳时,我们可以将其视为在特定时间尺度上的一系列静止任务,其中任务对应于不同的环境动态。这时,D(T)通过环境变化定义,且任务具有顺序相关性。因此,我们希望利用连续任务之间的这种相关性和元学习规则来不断更新策略,以最小化在与变化的环境交互期间遇到的总预期损失。例如,在多智能体设置中,当与逐渐改变其策略的对手(例如,由于学习)进行比赛时,我们的代理应理想地元学习以预测变化并相应地更新其策略。

在概率语言中,我们的非平稳环境等价于马尔可夫链表示的任务分布。目标是最小化在某长度L的任务链上的期望损失(公式5):

记作任务对应的马尔科夫链的初始和转移概率。我们在一堆连续任务上定义的元损失如下(公式6):

公式3和公式6的损失本质上的区别在于,轨迹来源度当前任务,并且用于构建策略,该策略对之后的任务有利。为了构建任务的策略参数,我们从Ɵ开始并执行多个具有可适应步长的元梯度步,如下所示(公式7):

是一个元梯度步长大小的集合,连同Ɵ一起优化,元更新的计算图见图1c。策略梯度如下(公式8):

计算适应性更新需要和下的环境交互,由于计算元损失需要使用,因此与每个任务需要两次顺序地交互。这通常在执行时间内是不可能的,因此我们需要略微不同的算法。

训练时的元学习

一旦我们获得了连续任务对的分布,,我们能够通过一个梯度方法联合地优化Ɵ和α以此元学习适应性更新,见算法1。我们使用收集轨迹并在和交互时用。算法搜索α和Ɵ使适应性更新在Ti的轨迹上被计算,并带给我们一个策略,该策略利于解决

执行时的适应

为了在训练时计算无偏适应梯度,我们使用收集中的经验。在测试中,由于环境非稳定,我们通常不会多次获取相同任务。因此,我们继续根据行动并重新使用过去的经验来计算每个新传入任务的Φ的更新(见算法2)。为了调整过去的经验是在不同于的政策下收集的事实,我们使用重要性权重校正。 在单步元更新的情况下,我们有:


环境

本文设计了一套环境,用于在两种情况下测试连续适应方法的不同方面:(i)根据一些不同的动态,从一段时期到另一段时期的简单环境,以及(ii)竞争性多代理环境RoboSumo,允许不同的代理人相互对抗,并在彼此的策略中继续以获得适应增量变化。

动态

首先,考虑在不断变化环境中机器人运动的问题。我们使用六条腿的代理(图2b)观察其身体的绝对位置和速度,腿的角度和速度,并通过对其关节施加扭矩来起作用。代理的目标是通过改变其步态来学习从一段时期到另一段时期的适应性,以使环境发生变化时,它仍能按给定方向以最大速度移动。

竞争

我们的多智能体环境RoboSumo允许代理商遵循标准的相扑规则参与1对1体制。 我们介绍了三种类型的代理,Ant,Bug和Spider,具有不同的解剖结构(图2a)。 在游戏期间,每个代理观察其自身和对手的位置,其自身的关节角度,相应的速度以及施加在其自身上的力(即,等同于触觉)。 动作空间是连续的。

实验

在非平稳运动环境下的few-shot适应

我们选择3个测试环境对应禁用六腿代理的3个不同对的腿:后、中、前腿。结果见图4。三个观察结果:第一,在初始时期,元学习的初始化策略,证明是效果不理想的。尽管如此,在1-2个时间段后,它开始和其他策略方法持平。第二,通过第6和第7个时期,元更新策略性能比其他方法更好。元更新的计算基于前两个时期收集的经验。最后,没有适应性的基准方法不能提升表现,有时会导致更糟糕的结果。


在few-shot约束下适应RoboSumo

为了在竞争的多代理环境中稳定地评价不同适应方法,我们考虑一个迭代适应游戏的变种,其中在测试时间对手的策略的变化是预先确定的但是对于代理不知道。

结果如图5所示。我们注意到,在大多数情况下,元学习适应策略能够在不断改善对手的约100个时期互动中适应和提高他们的胜率。 另一方面,在迭代游戏的轮次期间,基准方法的表现通常会恶化。 请注意,预训练的对手每次迭代观察了90个时期的自我发挥,而代理人每轮只能观看3个。

RoboSumo中适应的样本复杂性

结果如图6所示。当每轮的时期数量超过50时,通过技术上地跟踪适应转变为“在测试时学习”,并且能够学会与自训练中没见到的自训练对手竞争。在few-shot和标准制度中,元学习的适应策略几乎不变。 这表明元学习策略在训练时获得了特定的偏见,使其能够从有限的经验中获得更好的表现,但也限制了其利用更多数据的能力。


理论元学习
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

马尔可夫链技术

马尔可夫链,又称离散时间马尔可夫链,因俄国数学家安德烈·马尔可夫得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。

推荐文章
暂无评论
暂无评论~