Lisa Lee等作者机器之心编辑部编译

加速RL探索效率,CMU、谷歌、斯坦福提出以弱监督学习解纠缠表征

巨大的探索空间阻碍了强化学习(RL)的发挥,这篇论文通过弱监督学习从广泛的目标空间中分离出有语义意义的表征空间,从而增强 RL 的学习速度与泛化性能。

通用型智能体必须通过与真实环境交互来高效学习各种任务。典型的方法是人为地定义一组奖励函数,令智能体仅学习那些由奖励函数诱导出的任务。然而,定义与调整这些奖励函数需要耗费大量精力,并且使用者需要针对其关心的任务设置特定奖励函数,这为他们增添了额外的负担。而设计一个既能提供充足学习信号又能在算法收敛时诱导正确行为的奖励函数,是非常有挑战性的。

最近,来自 CMU、谷歌大脑和斯坦福大学的研究者发布一项研究,展示了如何通过弱监督以最小负担为智能体提供有用信息,以及如何利用这些监督帮助智能体在环境中学习。研究者探索了一种在目标趋向强化学习(goal-conditioned RL)设置中使用弱监督的方法。

研究者提出的弱监督智能体不需要通过探索和学习来达到每个目标状态,而是只需学习沿着有意义的变化轴达到相应状态,无需关注与解决人类指定任务无关的状态维度。重点是,研究者提出通过弱监督来执行此类约束,而不是列举目标或任务及其对应奖励。

这项工作的主要贡献是弱监督控制(weakly-supervised control,WSC),这是一个将弱监督引入 RL 的简单框架。该方法学习一个有语义意义的表征空间,智能体可以使用该表征空间生成自己的目标,获取距离函数,并执行定向探索。

WSC 包含两个阶段:首先基于弱标注离线数据学习状态的解纠缠表征,然后使用解纠缠表征约束 RL 智能体的探索空间。

实验结果表明,学习解纠缠表征能够加快强化学习在多种操作任务上的学习速度,并提高其泛化能力。此外,研究者还发现 WSC 能够产生可解释的潜在策略(latent policy),其潜在目标直接与环境的可控特征保持一致。

论文链接:https://arxiv.org/abs/2004.02860

了解 WSC 之前你需要先知道这些

目标趋向强化学习

研究者团队通过元组 (S, A, P, H, G) 定义有限时域下目标趋向的马尔可夫决策过程,其中 S 是观测空间,A 是动作空间,P (s′ | s, a) 表示一个未知动态函数,H 表示最大时间长度,G ⊆ S 表示目标空间。

在目标趋向 RL 中,研究者通过优化预期累积奖励来训练策略 π_θ (a_t | s_t, g),从而在目标空间中达到目标 g〜G,其中 R_g(s) 是由目标 g ∈ G 和观测值 s ∈ S 之间的距离度量定义的奖励函数。

在低维度任务中,我们可以简单地将奖励视为状态空间中的负 ℓ_2 距离。然而,在高维度空间(如图像)中定义距离度量更具挑战性。先前关于视觉目标趋向(visual goal-conditioned)的 RL 工作训练了一个额外的状态表征模型,例如变分自编码器(VAE encoder)e^{VAE}:S→Z^{VAE}。这些方法基于编码状态和目标训练一个策略,并使用潜在空间中的 ℓ_2 距离来定义奖励函数:


弱监督解纠缠表征

该研究提出的方法在 RL 环境中使用弱监督解纠缠表征学习。解纠缠表征学习旨在学习数据的可解释表征,表征的每一个维度度量一个独特的变化因子(factor of variation),这些因子是数据生成的基础(示例参见图 2)。

图 2:基于视觉的机械臂操作环境示意图。

该研究使用一种叫作 rank pairing 的弱监督形式,其中数据集 D := {(s_1, s_2, y)} 由观测值 {s_1 , s_2 } 与弱二值化标签 y ∈ {0, 1}^K 组成,y_k = 1(f_k(s_1) < f_k(s_2)) 表示观测值 s_1 的第 k 个因子的值是否小于 s_2 的相应因子值。

使用这些数据,Shu et al. (2019) 提出的弱监督方法通过优化以下损失函数训练出编码器 e : S → Z、生成器 G : Z → S 和判别器 D:

弱监督强化学习问题

问题描述

给定弱标注数据集 D: = {((s_1, s_2, y)},它由观测值 {s_1, s_2} 和弱二值化标签 y∈{0,1}^K 组成,其中 y_k = 1(f_k(s_1)<f_k(s2)) 表示观察值 s_1 的第 k 个因子值是否小于 s_2 的相应因子值。 

除了这些标签外,使用者还可以指定索引子集 I ⊆ [K],用来表示哪些因子(f_1,...,f_K)∈ F 与解决某一类任务有关。在训练期间,智能体可以与环境交互,但除了 D 中的弱标签外不接受任何监督(即没有奖励)。

在测试阶段,采样未知的目标因子 f_I^∗ ∈ F_I,则智能体接收到目标观测(如目标图像),其因子等于 f_I^*。智能体的目标是学习 latent-conditioned RL 策略,以最小化目标距离
新方法:弱监督控制(WSC)

该研究提出的弱监督 RL 训练框架 WSC 包含两个阶段:首先基于弱标注离线数据学习状态的解纠缠表征,然后使用解纠缠表征来约束 RL 智能体的探索空间。

图 3:WSC 框架示意图。

从观测中学习解纠缠表征

研究者提出的解纠缠表征学习基于上文介绍的 Shu et al. (2019) 方法构建。当然,理论上也可以使用其他类似的方法。该方法通过优化公式 1 中的损失函数来训练编码器、生成器和判别器。在训练完解纠缠模型后,研究者丢弃了生成器与判别器,仅用编码器来定义目标空间,并计算状态之间的距离。

结构化目标生成与距离函数

该研究提出的新方法将目标空间定义为学得的解纠缠潜在空间 Z_I,限制在索引 I 下。其目标采样分布的定义如下:

其中,Z^{min}_I 与 Z^{max}_I 分别表示对潜在值在元素层面上逐个取最小或最大。

在每一次迭代中,该方法从 p(Z_I) 中直接采样潜在目标 z_g,或从 replay buffer 中采样图像观测,并将其编码为解纠缠模型 z_g = e_I (s_g )。然后,执行该策略得到轨迹 (s_1, a_1, ..., s_T),从而尝试该目标。在基于 replay buffer 采样 transition (s_t, a_t, s_t+1, z_g) 时,研究者使用 hindsight re-labeling 和修改后的目标来提供额外的训练信号。也就是说,研究者有时会使用修改后的目标 z′_g 重新标注 transition (s_t, a_t, s_t+1, z′_g)。

该方法将奖励函数定义为解纠缠潜在空间中的负 ℓ_2 距离:

整个 WSC 框架的伪代码如下所示:

实验

在图 4 中,研究者团队在 Sawyer 环境中的视觉目标趋向任务(参见图 2)上,对比了其提出的新方法和先前的 SOTA 目标趋向 RL 方法。

图 4:不同方法在视觉目标趋向任务上的性能随训练步的变化情况。弱监督控制(WSC)的学习速度超过之前的 SOTA 目标趋向 RL 方法(HER、RIG、SkewFit),尤其是在环境复杂性提高的情况下。因此,我们可以看到,在(学得的)语义解纠缠潜在空间中进行定向探索和目标采样比在 VAE 潜在空间中进行纯粹无监督的探索更加有效。

在图 5 中,研究者评估了针对视觉目标趋向任务的训练策略,并比较了每个时间步上的潜在目标距离与真实目标距离。

图 5:研究者针对视觉目标趋向的任务推出策略,并比较潜在目标距离与对象和目标位置之间的真实距离。随着环境变得越来越复杂(对象数量 n ∈ {1,2,3}),由 SkewFit 优化的潜在距离奖励越来越无法显示真实目标距离,而由 WSC 优化的解纠缠距离则更加准确。

接下来,该研究测试了仅在解纠缠空间中的距离度量能否快速学习目标趋向任务。在图 6 中,我们看到解纠缠距离度量对较复杂的环境稍有帮助,但是与解纠缠潜在空间中具备目标生成机制的 WSC 完整方法相比性能不佳。

图 6:SkewFit + DR 是一种变体,它在 VAE 潜在空间中对目标进行采样,但使用的是解纠缠潜在空间中的奖励距离。我们从图中可以观察到, 解纠缠距离度量在较复杂的环境中(例如 Push n = 3)可能会有所帮助。但是相比之下,WSC 的目标生成机制对于实现有效的探索至关重要。

理论谷歌RL监督学习强化学习
相关数据
二值化技术

二值化是将像素图像转换为二进制图像的过程。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

伪代码技术

伪代码,又称为虚拟代码,是高层次描述算法的一种方法。它不是一种现实存在的编程语言;它可能综合使用多种编程语言的语法、保留字,甚至会用到自然语言。 它以编程语言的书写形式指明算法的职能。相比于程序语言它更类似自然语言。它是半形式化、不标准的语言。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

马尔可夫决策过程技术

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具,广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时,我们一般特指其在离散时间中的随机控制过程:即对于每个时间节点,当该过程处于某状态(s)时,决策者可采取在该状态下被允许的任意决策(a),此后下一步系统状态将随机产生,同时回馈给决策者相应的期望值,该状态转移具有马尔可夫性质。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~