Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

字节MOMA-Force视力觉模仿学习,机器人移动操作成功率提升近30%

字节提出 MOMA-Force 方法,助力移动操作机器人完成复杂操作任务。

我们正在目睹人工智能大厦的快速搭建,越来越多的算力奠定了大厦地基,大模型加快了大厦的建造速度,具身智能开始成为新的研究热门 —— 大厦的功能性将会得到完备。

具备自主操作行为的移动操作机器人(mobile manipulators)无疑是具身智能(embodied AI)的一个绝佳代表:它集机器人的多模态自主感知、自主决策、轨迹生成、鲁棒控制以及灵活本体于一身,为机器人以及具身智能领域的研究员、工程师提出了诸多令人兴奋的挑战点。比如:当我们想要让一台机器 “人” 进入家庭帮助我们做家务,它如何结合各种传感信息自主生成操作轨迹?如何在操作的过程中保证不损坏家具和自己?
图片图片
针对移动操作机器人在真实场景操作过程中的自主性和安全性问题,Bytedance Research 团队提出了一种新的方法:MOMA-Force。该方法可帮助移动操作机器人自主、安全地完成多种存在接触约束的操作任务(例如开洗衣机门、推拉抽屉)。
图片图片
该研究工作在模仿学习的背景下解决了真实物理世界移动操作任务中由不确定性和高维运动学引起的挑战性问题,提出了一种有效的视力觉模仿学习方法以解决复杂的接触移动操作任务。在六个接触约束的移动操作任务上进行了系统的真实机器人实验:在真实家庭环境中,MOMA-Force 在任务成功率方面明显优于基线方法(平均成功率 73.3%,而最佳基线方法仅实现了 45.0%)。此外,与没有力学习的基线方法相比,平均绝对接触力、力矩以及他们的平均方差均大幅减小,表明机器人与物体之间的接触更安全、更稳定。
图片
  • 项目主页:https://visual-force-imitation.github.io/
  • 论文地址:https://arxiv.org/abs/2308.03624
图片图片
方法

训练神经网络能够以端到端的方式生成动作,但由于动作精度和对噪声响应的低鲁棒性,导致难以应用于真实物理世界。另一方面,基于经典控制的方法可以增强系统的鲁棒性,但需要进行大量繁琐的参数调校。为了解决这些挑战,MOMA-Force 融合了用于视觉感知的表示学习(Representation Learning)、复杂运动轨迹生成的模仿学习(Imitation Learning)以及阻抗全身控制(Admittance Whole Body Control),以实现系统的鲁棒性和可控性。 

MOMA-Force 的流程原理可以简单描述为:

  • 专家示教数据中的 RGB 观测图像通过视觉编码器(visual encoder)转换为表示向量 Ze。当机器人在实时运行过程中,末端操作器的 RGB 观测图像通过相同的视觉编码器转换为表示向量 Zt。
  • 通过从专家数据 Ze 中检索匹配出与当前实际观测表示 Zt 最相似的表示索引 i,并抽取出索引 i 对应的专家运动行为(机器人末端位置姿态)、夹爪开闭行为、力和力矩来作为当前时刻机器人的局部行为目标。
  • 通过感知末端操作器当前所受到的接触力的大小、目标力的大小以及目标末端位姿,通过导纳全身控制(Admittance Whole Body Control)生成机械臂关节和底盘轮速控制信号驱动机器人平稳、安全地跟踪目标轨迹点完成任务。
图片
方法可以从两个部分进行拆解:

1. 目标行为的预测:实时视觉观测 -> 下个时刻机器人的状态预测

机器人的目标行为预测模块建立在最前沿的模仿学习方法上。它由两个阶段组成:离线的 RGB 视觉观测编码和在线编码运算。

  • 在离线阶段,MOMA-Force 利用预训练的视觉编码器(ibot)将专家轨迹中每帧的 RGB 观测图像投影到深度嵌入中。该嵌入即 RGB 视觉观测的紧凑表示。
  • 在在线阶段,MOMA-Force 利用同样的视觉编码器将每个时间点 t 所捕获的 RGB 观测图像也进行了编码,并通过计算与专家数据编码的相似度找出最相似的那一帧观测,这帧观测所对应的机器人在三维空间中末端位姿、夹爪的状态、六维力传感数据、任务完成状态等被匹配成为机器人当前的目标行为。

2. 导纳全身控制:实时力觉观测 -> 机械臂和底盘电机输出

由于机器人定位的精准度限制和目标行为预测的瑕疵,导纳全身控制用于为机器人系统形成基于力传感的闭环。在带有接触约束的任务中,小的姿态误差可能会导致大的接触力以及扭矩,甚至造成不可逆的机械损伤。因此,通过阻抗控制去弥补目标行为预测的不准确能够赋予移动操作机器人更加柔顺、安全的行为。

具体而言,MOMA-Force 通过导纳控制对预测出来的专家轨迹目标点位姿进行微调,微调之后的轨迹点通过基于最优控制的 QP 算法生成控制移动操作机器人整体构型空间(机械臂的 7 个关节和底盘轮子)的速度指令。

真机实验

实践出真知,有关 MOMA-Force 的能力边界需要一系列严格且科学的实验评测方式去进行验证。实验的设计紧密围绕机器人移动操作性能和机器人操作安全性两个方面展开,同时也对比了不同的预训练视觉编码器的效果。

Q:实验如何展开?

A:作者在六个带有接触约束的任务上进行了实验:例如拉抽屉、旋转水管、开洗衣机门、拉开柜门等。几乎所有的任务都要求机器人在操作过程中移动底盘并且保持与物体持续的合理的接触力。

作者为每个任务收集了 30 个专家演示:具体地说,对于每个时间点都记录了机器人末端相机的 RGB 观测图像、末端位姿、夹爪动作。所有操作任务都可以分为三个阶段:接近、抓取和接触操作。如果在任务执行过程中出现以下任一一种情况都会结束操作:1)完成任务;2)超时;3)力大于 40N 或过去 1 秒钟的平均力大于 30N。如果至少完成了一个任务轨迹长度的 80%,则认为这次实验成功。每种方法每个任务进行了 10 次实验。
图片
Q:增加了力觉的模仿学习方法是否能够实实在在地提升任务成功率?

A:MOMA-Force 方法在跟其它基线方法的对比中实现了最佳的平均成功率。与单任务行为克隆 BC(Behavior Cloning)方法相比,MOMA-Force 将任务成功率从 20% 提升到了 73.3%。有力觉的 MOMA-Force 对比无力觉的 MOMA-Force 成功率是 73.3% 比 45%。
图片
以下视频素材对比展示了 MOMA-Force 以及其它对照基线方法在真机上的表现效果:

行为克隆(BC):任务成功率较低
图片
图片
图片
MOMA-Force 无力觉 :由于接触力过大导致操作中断
图片
图片
图片
MOMA-Force
图片
图片
图片

Q:从直觉上如何理解力觉模仿会带来对任务成功率的提升?

A:当机器人在执行一些任务时,通过预训练模型预测的机器人未来状态总是不完全准确的,加上机器人在移动过程中底盘定位误差,机器人动力学导致的状态误差等等都会使得末端夹爪的位置不准确,进而使得末端与操作物体(比如门把手)接触时存在较大的应力。由于机器人夹爪和物体是硬接触的,一点微小的位置姿态误差都会造成很大的接触应力,这样的接触应力超过一定阈值后可能会对机器人造成不可逆的机械损伤,这样就判定这种情况为失败。只有加入了力觉模仿学习的方案才能够使得机器人调整姿态释放掉末端的接触应力,也就大大避免了在操作过程中因为应力过大而失败的情况。

Q:MOMA-Force 相比 BC 以及没有力觉模仿的方案,力传感的数据是怎样的呢?

A:实验对比了 MOMA-Force 和其它几个基线方法。对于所有的方法,作者计算了在六个任务中所有成功的实验的平均绝对接触力、力矩和平均力、力矩方差,然后对任务进行平均(如图)。较小的力、力矩方差表示执行任务过程中更稳定的接触。MOMA-Force(红色柱子)在 x、y 和 z 轴上的平均绝对接触力和力矩都是最小的,且方差也是最小的。
图片
Q:不同的预训练视觉编码器在真实机器人数据上表现的对比如何?

A:实验通过对比各种 SOTA 的预训练模型作为视觉编码器在 5 倍交叉验证的测试集上的均方误差(MSE)来比较不同的视觉预训练编码器的有效性,表格 II 展示了结果。MVP(Masked Visual Pretraining)是基于 masked auto-encoder 通过互联网视频数据进行的预训练的。CLIP 旨在通过对比学习(contrastive learning)将图像表示与文本对齐。同样由字节跳动提出的 iBOT 通过在线标记器(online tokenizer)在 masked auto-encoder 和对比学习之间取得了良好的平衡。由于 iBOT 以自蒸馏的方式进行掩膜图像建模,并通过对图像使用在线 tokenizer 进行 BERT 式预训练,让 CV 模型获得了通用广泛的特征表达能力。表格 II 显示 iBOT 的特征表示能力十分有效,在实验任务中取得了最佳的表现性能。
图片
参考文献:
1. I. Radosavovic, T. Xiao, S. James, P. Abbeel, J. Malik, and T. Darrell, “Real-world robot learning with masked visual pre-training,” in 6th Annual Conference on Robot Learning, 2022. 
2. K.Grauman,A.Westbury,E.Byrne,Z.Chavis,A.Furnari,R.Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu et al., “Ego4d: Around the world in 3,000 hours of egocentric video,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 18 995–19 012. 
3. J. Pari, N. M. Shafiullah, S. P. Arunachalam, and L. Pinto, “The surprising effectiveness of representation learning for visual imitation,” arXiv preprint arXiv:2112.01511, 2021. 
4. J.-P. Sleiman, F. Farshidian, and M. Hutter, “Constraint handling in continuous-time ddp-based model predictive control,” in 2021 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2021, pp. 8209–8215. 
5. C. Zeng, S. Li, Y. Jiang, Q. Li, Z. Chen, C. Yang, and J. Zhang, “Learning compliant grasping and manipulation by teleoperation with adaptive force control,” in 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2021, pp. 717–724. 
6. A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark et al., “Learning transferable visual models from natural language supervision,” in International conference on machine learning, 2021. 
7. J. Zhou, C. Wei, H. Wang, W. Shen, C. Xie, A. Yuille, and T. Kong, “ibot: Image bert pre-training with online tokenizer,” arXiv preprint arXiv:2111.07832, 2021. 
8. F. Torabi, G. Warnell, and P. Stone, “Behavioral cloning from obser- vation,” in Proceedings of the 27th International Joint Conference on Artificial Intelligence, 2018. 
9. H. Ferreau, C. Kirches, A. Potschka, H. Bock, and M. Diehl, “qpOASES: A parametric active-set algorithm for quadratic program- ming,” Mathematical Programming Computation, vol. 6, no. 4, pp. 327–363, 2014. 
10. K.Siddharth,N.Suraj,C.Annie,S.,K.Thomas,F.Chelsea,S.Dorsa, and L. Percy, “Language-driven representation learning for robotics,” arXiv preprint arXiv:2302.12766, 2023.
理论机器人技术模仿学习
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

最优控制技术

最优控制是指在给定的约束条件下,寻求一个控制,使给定的系统性能指标达到极大值(或极小值)。它反映了系统有序结构向更高水平发展的必然要求。它属于最优化的范畴,与最优化有着共同的性质和理论基础。对于给定初始状态的系统,如果控制因素是时间的函数,没有系统状态反馈,称为开环最优控制,如果控制信号为系统状态及系统参数或其环境的函数,称为自适应控制。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

本体技术

在计算机科学和信息科学中,本体包括表示、正式命名和定义概念,数据,实体之间的类别,属性和关系,并在一个,多个或所有域实例中。

暂无评论
暂无评论~