参与:Geek AI、王淑婷作者:Dmitry Kalashnikov 等

CoRL 2018最佳系统论文:如此鸡贼的机器手,确定不是人在控制?

在机器人交互的典型问题机器人抓取任务中,传统方法通常采用单向执行模式,而不会对抓取结果进行反馈。而在本文介绍的获得 CoRL 2018 最佳系统论文奖的研究 QT-Opt 中,来自伯克利和谷歌大脑的研究者提出了视觉闭环形式的机器人抓取方法,能通过自监督进行反馈来修正抓取动作,这其实和人类抓取物体的方式很相似。第一下没抓到?没关系,挪挪手指就好;东西堆在一起抓不到?没关系,一巴掌打散再说。此外,该方法还有设置简单、抗干扰、泛化性强的优点。Jeff Dean 也推荐了这篇论文,赞叹道「We are starting to get a handle on grasping!」。

更多演示:https://sites.google.com/view/qtopt

1 引言

与物体进行交互的操作是机器人技术中最大的开放问题之一:在开放的世界环境中智能地与以前没有见过的物体进行交互需要可以泛化的感知、基于视觉的闭环控制和灵巧的操作。强化学习为解决这一问题提供了一个很有前景的途径,目前强化学习方向上的工作能够掌握如击球 [1],开门 [2,3],或投掷 [4] 这样的单个技能。为了满足现实世界中对操作的泛化需求,我们将重点关注离策略算法的可扩展学习,并在具体抓取问题的背景下研究这个问题。虽然抓取限制了操作问题的范围,但它仍然保留了该问题中许多最大的挑战:一个抓取系统应该能够使用真实的感知技术可靠、有效地抓取之前没有见过的物体。因此,它是一个更大的机器人操作问题的缩影,为对泛化和多样化的物体进行交互提供了一个具有挑战性和实际可用的模型。

现有的很多机器人抓取工作都将任务分解为感知规划和行动阶段:机器人首先感知场景并识别合适的抓取位置,然后规划到达这些位置的路径 [5,6,7,8]。这与人类和动物的抓取行为不同,人和动物的抓取行为是一个动态过程,在每个阶段都紧密交织着感知和控制行为 [9,10]。这种动态闭环的抓取很可能对不可预测的物体物理属性、有限的感知信息(例如,单目摄像机输入而非深度)和不精确动作的鲁棒性更强。为长期成功而训练的闭环抓取系统也可以执行智能的预抓取操作,例如推倒或重新调整物体的位置以更容易地抓取物体。然而,闭环抓取控制的一个主要挑战是,感知运动循环必须在视觉模式上封闭,而在新的环境设置下很难有效地利用标准最优控制方法。

本文研究了离策略深度强化学习如何能够利用完全自监督的数据采集方法,获取闭环的动态视觉抓取策略,从而泛化到测试时没有见过的物体上。底层末端执行器的运动值是直接从摄像机观测的原始结果中预测出来的,整个系统在现实世界中使用抓取尝试进行训练。虽然深度强化学习的原理在几十年前就已经被大家知晓 [11,12],但将其应用到一个能够泛化到新物体上的实用机器人学习算法中,则需要一个稳定、可扩展的算法和大型数据集,以及仔细的系统设计。

图 1:实验设置了 7 个机器人,在自动的自监督情况下收集抓取片段。

我们实验中的实现做了非常简单的假设:观测结果来自于机器臂上方的单目 RGB 摄像机(见图 2),动作由末端执行器的笛卡尔运动和夹持器开闭命令组成。强化学习算法在成功抓起一个物体时得到二值奖励(正或负),而没有其它奖励形式。这一系列的假设使得这种方法可以大规模部署,让我们能够在 7 个真正的机器人组成的系统上收集到 580k 的抓取尝试数据。与文献 [13,14] 中的大多数强化学习任务不同,该任务的主要挑战不仅是需要最大化奖励,而且要有效地将该方法泛化到以前没有见过的物体上。这需要在训练过程中使用非常多样化的物体。

为了最大限度地利用这种多样化的数据集,我们提出了一种基于 Q-learning 的连续动作泛化的离策略训练方法,我们称之为 QT-Opt(通过优化实现 Q-function 的目标)。QT-Opt 不同于其它的连续动作 Q-learning 方法 [15,16],后者通常由于 actor-critic 的不稳定性而不稳定 [17,18],QT-Opt 不需要训练一个显式的 actor,而是使用对 critic 的随机优化来选择动作和目标值 [19,20]。我们的研究表明,即使完全采用离策略训练,也能超越基于先前研究的强基线,而通过适度的在线策略调优,可以将具有挑战性的、对之前没有见过物体的抓取成功率提高到 96%。

图 2:我们实验环境下的机器人单元的特写(左图)和大约 1000 个视觉和物理特征上不同的训练对象(右图)。每个单元(左)由一个 KUKA LBR IIWA 机器臂、具有两个手指的夹持器和一个放置在机器臂上方的 RGB 摄像机组成。

我们的实验从数量和质量上验证了该方法的有效性。本文提出的方法在一系列训练中没有见过的物体上获得了高成功率,本文的定性实验表明,这种高成功率是由于系统采用了各种策略,如果没有基于视觉的闭环控制,这些策略是不可行的:学习到的策略表现出纠正行为、重新抓取、探索运动以确定最佳的抓取方式、重新调整不可抓取物体的位置,以及其它只有在抓取作为一个动态的闭环过程时才可行的特性。

图 3:QT-Opt 的分布式强化学习的基本结构(参见 4.2 节)。该模型将从离线数据中加载「状态-动作-奖励」三元组,这些离线数据是从在线机器人集合中获得并存储下来的(参见第 5 小节)。

论文:QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation

论文地址:https://arxiv.org/pdf/1806.10293.pdf

摘要:在本文中,我们使用一种可扩展的强化学习方法研究了学习基于视觉的动态操作技能的问题。我们在抓取行为的背景下研究了这个问题,这是机器人操作中一个长期存在的挑战。

与选择一个抓取点,然后执行预期的抓取动作的静态学习行为不同,我们的方法实现了基于视觉的闭环控制,机器人根据最近的观测结果不断更新抓取策略,以优化长期的抓取成功率。为此,我们引入了 QT-Opt,这是一个可扩展的基于视觉的自监督增强学习框架,它可以利用 580k 的现实世界尝试抓取的数据来训练一个带有 1.2M 参数深度神经网络 Q-function,从而执行闭环的真实世界的抓取行为,该方法可以以 96% 的成功率泛化到对没有见过的物体的抓取行为上。

除了获得了非常高的成功率,我们的方法还表现出与更标准的抓取系统相比截然不用的性质:在只使用机器臂上的摄像头基于视觉的 RGB 感知的情况下,我们的方法可以自动学习到在物体掉落后重新抓取物体的策略、对物体进行探测从而找到最有效的抓取方式、学习调整物体的位置并且对其它不能抓取的物体上进行预抓取操作、对动态的干扰和扰动作出响应。

表 1:测试物体抓取成功率的定量结果。将使用物体替换(test)和不使用物体替换(bin emptying)两种情况下的指标来评估策略,后者会显示前 10、20 和 30 次抓取中的成功率。我们的方法的变体使用了在线策略调优,它的失败率比先前测试集上的工作低了四倍多,但却使用了更少的抓取尝试进行训练。只使用离策略训练的变体也大大超过了先前方法的性能。

图 4:QT-Opt 策略中的八种抓取场景,展示了我们的方法发现的一些策略:预抓取操作(a,b),抓取调整(c,d),抓取动态物体和从干扰中恢复(e,f),在混乱场景中抓取物体(g,h)。

理论伯克利深度强化学习机器人
2
相关数据
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

Q函数技术

在统计学中,Q函数是标准正态分布的右尾函数,又叫(标准正态分布的)互补累计分布函数。Q ( x )是正常(高斯)随机变量获得大于x标准差的值的概率。等效地,Q ( x )是标准正态随机变量取大于x的值的概率。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~