蒋晔、杨威、张弛、蒋宝尚编译

伯克利最新:基于视觉模型强化学习的通用机器人

人类的学习能力是无限的!

有时候,只要看一眼,有些天分的人就能进行模仿。用学术一点的话说就是:只需少量的明确监督和反馈,人类就可以通过简单的交互和对世界的生理感知,来学习各种运动技能。

机器人们“做梦”都想拥有这个技能。虽然在某些特定的方面,机器人取得了重大的进展。但是机器人获得大量且多样化的全部通用技能仍然是一个挑战。

现在,伯克利有个团队开发一款“万能机器人”,无需反复学习,只需看“一眼”就能执行不同的任务,例如整理物品,挑选玩具或者折叠毛巾。

下面,文摘菌将带大家将看看它是如何工作的?机器人如何仅基于原始感知数据(即图像像素,无需物体检测器或手工设计的感知组件)来自我学习?以及展示如何使用已学到的经验来完成许多不同的任务。并且,将演示这种方法如何通过原始像素,执行任务以及与机器人从未见过的物体进行交互。

学会从无监督的交互中进行预测

首先需要一种收集各种数据的方法。如果训练机器人用单个物体执行单一技能,即使用特定的锤子击中特定的钉子,那么它将只学习那个给定的环境, 即锤子和钉子就是它的整个宇宙。

如何建造能够学习更多通用技能的机器人呢?可以让机器人在不同的环境中学习,而不是在单一给定的环境中学习单个任务,类似于孩子玩耍和探索。

如果一个机器人可以自己收集数据并完全自主地学习,那么它就不需要监督,因此可以一天24时刻收集经验并了解世界!此外,多个机器人可以同时收集数据并分享经验,数据收集是可扩展的,因此可以收集具有许多物体和机器人动作的各种数据。为了实现这一点,我们用两个机器人随机采样各种物体,包括玩具和杯子等刚性物体,以及布和毛巾等可变形物体,并同时收集数据:

两个机器人与世界交互,通过许多物体和许多动作自主地收集数据。

在数据收集过程中,可以观察机器人的传感器观测的内容:图像像素(视觉),手臂的位置(本体感知)以及发送到机器人的动作命令(动作)。

但是无法直接测量物体的位置,它们对被推动的反应,速度等。此外,在这些数据中,没有进步或成功的概念。与打砖块游戏或敲钉子游戏不同,我们不会获得分数或目标。在现实世界中进行交互时,我们学习的是自身感知(机器人的传感器)提供的东西。

那么,当只有我们的感知时,我们能学到什么?我们可以学习预测,如果机器人以一种方式移动其手臂而不是另一种方式,世界将会是什么样子?

如果机器人以不同的方式移动手臂,学习物理,物体和自身,机器人就会学会预测未来会是什么样子。预测帮助我们学习关于世界的普遍事物,例如物体和物理。而这些通用知识正是玩打砖块游戏的智能体所缺失的。预测还可以让我们从我们拥有的所有数据中学习:动作和图像流有许多隐式监督信息。这很重要,因为我们没有打分或回报函数。

无模型强化学习系统通常仅从回报函数提供的监督中学习,而基于模型的RL智能体可以利用他们观察到的像素中可用的丰富信息进行自我学习。

现在,我们如何使用这些预测呢?

计划执行人类指定的任务

如果有一个万能的预测模型,那么可以用它来实现目标。也就是说,如果理解行为的后果,那么就可以预期结果来选择相应的行为。

使用基于采样的过程来计划。尤其是,可以在许多不同的候选动作序列中采样,然后选择最好的计划(最有可能导致预期结果的动作),并从拟合最优的候选动作序列的动作分布中重新采样,用以迭代优化。一旦找到了期望的计划,就会在现实世界中执行划的第一步,观察下一个图像,如果发生意外的话就重新计划。

现在自然有一个问题,用户如何为机器人指定目标或期望的结果?我们已经尝试了许多不同的方法来解决这一问题。发现的最简单的机制是,简单地单击初始图像中的一个像素,并通过单击另一个像素位置来指定该像素对应的物体的移动方式。

还可以给出一对以上的像素来指定其他所需物体的运动。虽然有些类型的目标无法以这种方式表达(已经探索了更通用的目标指定方式,例如目标分类器),但发现指定像素位置可用于描述各种各样的任务,并且它非常容易提供。需要说明的是,当机器人与现实世界交互时,用户提供的目标指定方式不会在数据收集过程中使用,即当我们希望机器人使用其预测模型来实现某个目标。

实验

伯克利团队收集了2周的无监督数据,在Sawyer机器人上实验了这种方法。重要的是,训练期间唯一的人类参与是为机器人提供各种各样的物体用于收集随机的机器人运动的数据的编码。

能够以极少的工作就可以几乎每天24小时收集多个机器人的数据。在所有这些数据上(包括两个摄像机视点)训练单一动作条件的视频预测模型,并使用前面描述的迭代计划过程来计划和执行用户指定的任务。

由于着手实现通用性,在广泛的任务中评估了相同的预测模型,这些任务涉及机器人以前从未见过的物体和机器人以前没有遇到的目标。

例如,要求机器人折叠短裤:

上:目标是折叠短裤的左侧。 中:机器人的预测与其计划相对应。 下:机器人执行其计划。

或者把苹果放在盘子上:

上:目标是将苹果放在盘子上。 中:机器人的预测与其计划相对应。 下:机器人执行其计划。

最后,我们还可以要求机器人用毛巾盖住勺子:

左:目标是用毛巾盖住勺子。 中:机器人的预测与其计划相对应。 右:机器人执行其计划。

有趣的是,我们发现,即使模型的预测远非完美,它仍然可以使用这些预测来有效地实现指定的目标。

相关工作

已有许多工作针对这个基于模型的强化学习(RL)的问题,即学习预测模型,然后使用该模型来行动或使用它来学习策略。在此类的先前工作中,许多集中在设置物体的位置或者其它可直接获得的任务相关信息,而不是通过图像或其他原始传感器进行观测。

这种低维状态表示是一种很强的假设,在现实世界中通常是不可能实现的。直接对原始图像帧进行操作的基于模型的RL方法尚未得到广泛研究。针对简单的合成图像和视频游戏环境,已经提出了几种算法,这些算法集中在一组固定的物体和任务上。其他工作研究了现实世界中侧重个人技能的基于模型的RL。

最近的一些工作研究了自我监督的机器人学习,其中大规模的未利用数据收集被用于学习个人技能,例如抓握,推动与抓握的协作或避障。

抓握:https://arxiv.org/abs/1603.02199

推动与抓握的协作:https://arxiv.org/abs/1803.09956

避障:https://arxiv.org/abs/1704.05588

讨论

在视觉上多样的设定中,泛化到许多不同的任务可以说是当今强化学习和机器人研究的最大挑战之一。深度学习大大减少了部署算法所需的特定任务的工程量;然而,现有方法通常需要大量的监督经验或集中于掌握单个任务。结果表明,伯克利的方法可以泛化到大量的任务和物体,包括以前从未见过的任务和物体。

模型的通用性是从现实世界中进行大规模自我监督学习的结果。这些结果代表了向前迈进的重要一步,即单个的机器人强化学习系统实现了任务的通用性。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

理论强化学习计算机视觉机器人
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~