持续地学习和适应非平稳环境中有限经验的能力是通向智能的重要里程碑。本文将持续适应问题转化为Learning-to-learn框架,并开发了一个简单的基于梯度的元学习算法来适应动态变化和对抗场景。此外,本文设计了一个多代理的竞争环境,RoboSumo,并定义迭代的适应游戏用于测试持续适应的各个方面。本文证明了元学习比反应基准在few-shot方法中有明显更有效的适应力。
假设给定一个任务的分布D(T),每一个任务T是一个元组:。
是一个特定任务的损失函数,它将一个轨迹
,映射到一个损失值。
和
定义了在任务T中环境的马尔科夫动态过程。H记为准线。观测
,动作
,对应观测空间X和动作空间A的元素。轨迹τ的损失是负积累奖励(公式1):

元学习的目标是找到一个程序,该程序能从D(T)采样得到的任务T中获得有限经验,并产生一个好的策略来解决它。更形势地表述为,从任务分布T~D(T)中按策略查询到长度为K的轨迹(记为
)后,我们想要构建一个新的、任务特定的策略
,以最小化任务T上的期望损失。具体的而言,MAML利用关于Ɵ的
的梯度来构建任务特定的策略参数Φ(公式2):

我们称公式2为α步适应性更新。适应性更新被Ɵ参数化,并通过最小化任务分布D(T)的期望损失(公式3)优化:

这里和
是由
和
获得的相应轨迹。
通常,我们认为任务、轨迹、策略作为随机变量(如图1a),此处Φ由某种条件分布生成。为了优化公式3,我们可以使用策略梯度方法,的梯度如下所示(公式4):

期望损失LT可以被信任区域策略(TRPO)或者接近策略(PPO)优化。
在概率语言中,我们的非平稳环境等价于马尔可夫链表示的任务分布。目标是最小化在某长度L的任务链上的期望损失(公式5):

和
记作任务对应的马尔科夫链的初始和转移概率。我们在一堆连续任务上定义的元损失如下(公式6):

公式3和公式6的损失本质上的区别在于,轨迹来源度当前任务
,并且用于构建策略
,该策略对之后的任务
有利。为了构建任务
的策略参数,我们从Ɵ开始并执行多个具有可适应步长的元梯度步,如下所示(公式7):

是一个元梯度步长大小的集合,连同Ɵ一起优化,元更新的计算图见图1c。策略梯度如下(公式8):

计算适应性更新需要和下的环境交互,由于计算元损失
需要使用
,因此与每个任务需要两次顺序地交互。这通常在执行时间内是不可能的,因此我们需要略微不同的算法。

训练时的元学习
一旦我们获得了连续任务对的分布,,我们能够通过一个梯度方法联合地优化Ɵ和α以此元学习适应性更新,见算法1。我们使用
从
收集轨迹并在和
交互时用
。算法搜索α和Ɵ使适应性更新在Ti的轨迹上被计算,并带给我们一个策略
,该策略利于解决
。
执行时的适应
为了在训练时计算无偏适应梯度,我们使用收集
中的经验。在测试中,由于环境非稳定,我们通常不会多次获取相同任务。因此,我们继续根据
行动并重新使用过去的经验来计算每个新传入任务的Φ的更新(见算法2)。为了调整过去的经验是在不同于
的政策下收集的事实,我们使用重要性权重校正。 在单步元更新的情况下,我们有:



我们选择3个测试环境对应禁用六腿代理的3个不同对的腿:后、中、前腿。结果见图4。三个观察结果:第一,在初始时期,元学习的初始化策略,证明是效果不理想的。尽管如此,在1-2个时间段后,它开始和其他策略方法持平。第二,通过第6和第7个时期,元更新策略性能比其他方法更好。元更新的计算基于前两个时期收集的经验。最后,没有适应性的基准方法不能提升表现,有时会导致更糟糕的结果。
在few-shot约束下适应RoboSumo

结果如图5所示。我们注意到,在大多数情况下,元学习适应策略能够在不断改善对手的约100个时期互动中适应和提高他们的胜率。 另一方面,在迭代游戏的轮次期间,基准方法的表现通常会恶化。 请注意,预训练的对手每次迭代观察了90个时期的自我发挥,而代理人每轮只能观看3个。
RoboSumo中适应的样本复杂性

结果如图6所示。当每轮的时期数量超过50时,通过技术上地跟踪适应转变为“在测试时学习”,并且能够学会与自训练中没见到的自训练对手竞争。在few-shot和标准制度中,元学习的适应策略几乎不变。 这表明元学习策略在训练时获得了特定的偏见,使其能够从有限的经验中获得更好的表现,但也限制了其利用更多数据的能力。