Jansfer作者

谷歌AI机器手在多对象操控上取得新进展!可熟练旋转多个小球

对于人类来说,同时使用几根手指抓握和操纵对象似乎根本不是什么问题,但是对于机器人来说这却艰难得多。这是因为像用铅笔在纸上书写这样的任务需要物理模型来指导将力施加到目标对象上,而且还需反复接触和断开接触,对于一般的解决手部操作问题的常规方法,通常难以精确地生成这样的模型。这也就是为什么Google Brain的研究人员追求一种涉及深度动力学模型(DDM)的新型机器人任务计划的原因。

他们近日在Arxiv.org上发布的论文“用于学习敏捷操作的深度动力学模型”中对此进行了描述,机械手仅用四个小时的实际数据就可以操作多个对象。

图|经过2.7小时的实验,机器手已经可以熟练控制两个球的旋转(图片来源:Google)该模型建立在AI研究的丰富基础上,它致力于研究机器人手部操纵的问题,并借鉴了很多先前模型的经验,这其中包括腾讯最近的一项研究,该研究调查了魔方的立方体求解器。另外,OpenAI研究人员于去年7月详细介绍了一种系统,该系统能够以最先进的精度指导手抓握和操纵对象。

去年9月,麻省理工学院CSAIL小组提出了一种名为“密集物体网”的计算机视觉系统,该系统使机器人能够检查,视觉理解和操纵他们从未见过的物体。就其本身而言,谷歌今年初与哥伦比亚普林斯顿大学和麻省理工学院的研究人员合作,开发了一种被称为TossBot的捡拾机器人。它学会在其“自然范围”范围之外抓取物体并将其扔进盒子。

无需模型的机器学习方法可以学习在复杂的机器人操纵任务上达到良好性能的策略。但是当需要高度灵活性时,这些最先进的算法就会遇到困难。复杂的联系动态而导致任务失败的可能性很大。无模型方法还需要大量数据,因此很难在现实世界中使用。在这项工作中,研究人员旨在突破这种任务复杂性的界限。为此,团队将他们的方法描述为“不确定性”的AI模型与最新的轨迹优化相结合。

强化学习有助于教导系统细微的手和对象交互。计算每个动作是跨多个机器学习模型的平均预测奖励,该模型用于优化候选动作序列。手只执行第一个动作,然后接收更新的状态信息并在接下来的步骤中重新计划。研究人员为系统分配了解决一些实际操作难题的任务,所有这些难题都需要与对象接触并将其最终定位到目标位置。最困难的一项是将两个保定球绕着手掌旋转而不会掉落,但研究人员的模型设法仅使用100,000个数据点(2.7小时)的数据来解决该问题。

在一项独立的实验中,该团队重新调整了在保定球任务中训练的模型的用途,而无需进行额外的培训即可完成其他任务,包括将单个球移动到机械手的目标位置,并执行顺时针旋转而不是学习逆时针旋转。(有问题的手是“影子手”,它的手腕带有两个已激活的关节,外加中指和无名指,每个中指和无名指都有三个已激活的关节和一个未激活的关节,还有一个小手指和拇指,有五个已激活的关节。)它成功地将两个球旋转了90度和180度,而没有将它们从相机捕获的两个小时的真实数据中掉落,成功率分别约为100%和54%。在研究其系统灵活性的后续测试中,该团队在模拟环境中进行了手写实验。他们说,该方法将建模与特定任务的控制分离,从而可以进行跨行为泛化,而不是发现并记住特定任务或动作的答案。

该论文的合著者表示,基于深度模型强化学习的方法打破了通用机器学习社区的观念,即模型难以学习且尚未提供像无模型方法一样令人惊喜的控制结果。在我们的灵巧操作任务模拟套件中,在学习速度和最终性能方面,它始终优于这些先前方法,而本文首次证明了这一点。深层神经网络模型确实可以利用高维操纵器,包括高效地利用样本,自动发现精细的运动技能,其中包括只用几小时的真实数据训练的真实灵巧手。研究人员打算尽快将代码开源。

(参考:https://venturebeat.com/2019/09/27/google-robotic-hand-ai-can-rotate-baoding-balls-with-under-4-hours-of-training-data/

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业机器学习计算机视觉机器人谷歌
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
推荐文章
暂无评论
暂无评论~