范永祥作者

灵巧工业机器人(三)装配

概述:机器人广泛应用于工业生产的加工和装配等各个领域。传统的工业机器人需要通过复杂的标定和预编程来完成任务。近年来,自动化水平的发展对机器人在不确定环境下执行复杂任务提出了更高的要求。因而机器人机械手的灵巧性受到更多的关注。本课题旨在工业机器人的灵巧性研究。这其中包括

1. 工业机械手/灵巧手的智能实时抓取;

灵巧工业机器人(一)抓取

2. 灵巧手的手内操控;

灵巧工业机器人(二)手内操控

3. 工业机器人强化学习与智能装配。

本文简述3.

3. 工业机器人强化学习与智能装配

3.1. 简介

工业机器人在装配线中有着广泛用途,如汽车零件装配,线缆组装等等。传统装配线中机器人按照预先设定的轨迹完成装配任务。这种装配模式耗费大量的人力标定和预编程成本,并且难以对环境不确定性鲁棒。

图3.1.1. (左)机器人线缆装配。(右)乐高积木机器人。由于标定的不确定性,乐高积木在插入过程中需要适应各种不确定性。

近年来深度各类学习算法例如监督学习强化学习开始应用到装配中。监督学习通常需要通过人类示教为学习算法提供大量训练数据,因而效率低下时间成本很高。另一方面,强化学习通过探索环境获得大量数据和对应的奖励,进而摸索出最优装配策略。然而强化学习需要大量数据堆积,难以在实际机器人上获得高效率的探索。近年来有学者采用了优化控制和监督学习相结合的方式,该算法从数据中抽象模型,进而利用优化算法计算最优路径,最优路径被用来训练深度学习网络,如图3.1.2.(右)所示。这种算法极大提高的学习效率,但参数较多,稳定性较差,难以用于工业机器人装配。

图3.1.2. (左)原始的深度确定型策略梯度(Deep Deterministic Policy Gradient)算法[1]。(右)引导性策略搜索(Guided Policy Search)[2]。DDPG效率较低,而GPS在高刚度系统中稳定性较差。

3.2. 引导型DDPG

本课题提出了一种名为Guided-DDPG的“引导型策略搜索”算法,将传统的策略搜索算法效率提升数倍。该算法已应用在工业机械臂的乐高积木装配中。算法的思想如图3.2.1.所示。在初始探索阶段,轨迹优化(半导师)为DDPG提供初始引导,避免DDPG探索过大区域造成数据浪费。随着学习的进行,DDPG逐步建立起评价机制取代轨迹优化。该成果已提交至国际机器人与控制会议(ICRA2019)。

图3.2.1. 引导型DDPG(Guided-DDPG)算法。引导型DDPG使用了轨迹优化作为半导师,引导DDPG探索合适的区域,避免数据浪费。轨迹规划本身难以稳定的完成任务,但是可以起到引导DDPG的作用。逐步建立起的Q-网络将逐步超越半导师,并完成任务。

3.3. 结果比较

该算法的有效性通过仿真和实验验证。在仿真阶段,我们使用了乐高积木装配和U型关节装配,如图3.3.1.所示。

图3.3.1. 该算法的仿真验证。(上)U型关节装配,(下)乐高积木装配。

该算法与其他训练效率的比较如图3.3.2.所示。本文提出的算法可以在1500次尝试以内稳定地学习到装配技能,而传统的DDPG需要7000次以上。与原始DDPG相比,该算法在时间效率上提高55.1%,在数据效率上提高了78.6%,如下表所示。

图3.3.2. 不同算法的学习曲线。(左)乐高积木装配,(右)U型关节装配。本文提出的算法可以在1500次尝试以内稳定地学习到装配技能,而传统的DDPG需要7000次以上。

该算法学习到的装配策略可以泛化到其他相似的任务上,视频如下。

最后,我们通过初步的实验验证了该算法的有效性。我们采用UR5机器人和Robotiq力矩传感器感知反馈信息,在机器人上训练引导型DDPG 1.5小时,如图3.3.3所示。

图3.3.3. 该算法的实验验证。(左)实验装置,(右)算法测试截图。引导型DDPG可以在1.5小时内学习到鲁棒的装配策略,而原始的DDPG不能找到可用的装配策略。

 

[1]: Lillicrap, Timothy P., et al. "Continuous control with deep reinforcement learning." arXiv preprint arXiv:1509.02971(2015).

[2]: Levine, Sergey, et al. "End-to-end training of deep visuomotor policies." The Journal of Machine Learning Research 17.1 (2016): 1334-1373.

作者简介:

范永祥,2010年至2014年就读于中国科学技术大学机械设置制造及其自动化。2014年进入加州大学伯克利分校攻读机械工程系自动化专业博士,主攻工业机器人的智能与灵巧性研究,其研究领域涵盖抓取(grasping),灵巧操控(dexterous manipulation)以及装配(assembly)。在国际会议上发表多篇论文,其中grasp planning for customized grippers by iterative surface fitting获得2018年国际自动化科学与工程会议(CASE2018)最佳应用论文,robust dexterous manipulation under object dynamics uncertainties获得2017年国际先进智能电子会议(AIM2017)最佳论文提名。

(本系列完)

ControlPlusAI
ControlPlusAI

分享机器人控制和AI领域里的一些知识和感想,偏学术。由来自UC Berkeley, Stanford, CMU的研究者们原创撰稿。

理论工业机器人
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习曲线技术

在机器学习领域,学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

工业机器人技术

工业机器人是面向工业加工制造的可自动控制,多用途,需有三轴及以上可编程的固定或可移动机械手。其系统中包括带有执行机构的机械手以及示教控制器。 它可以依靠自身控制能力来执行预设的轨迹及动作。典型应用包括焊接,刷漆,组装,采集和放置等工作。工业机器人完成工作具有高效性,持久性和准确性。目前常用的工业机器人包括关节机器人,SCARA机器人,并联机器人和直角坐标机器人等。

策略搜索技术

策略搜索是强化学习中的一个子领域,其重点是为给定的策略找到合适的表示参数。它非常适合机器人学,因为它可以处理高维状态和动作空间这类机器人学习中的主要挑战。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~