机器之心编辑部编译

6D目标姿态估计,李飞飞夫妇等提出DenseFusion

根据 RGB-D 图像进行 6D 目标姿态估计的一个主要技术挑战是如何充分利用两个互补数据源——颜色和深度。为此,李飞飞夫妇等研究者提出了 DenseFusion——一种可单独处理两个数据源的异质架构。实验表明,DenseFusion 在 YCB-Video 和 LineMOD 两个数据集上的表现都优于当前最先进的方法。此外,研究者还将该方法应用于真实的机器人上,使其可以根据估计的姿态来抓取和操纵目标。

1 引言

6D 目标姿态估计对许多重要的现实应用都很关键,例如机器人抓取与操控、自动导航、增强现实等。理想情况下,该问题的解决方案要能够处理具有各种形状、纹理的物体,且面对重度遮挡、传感器噪声、灯光条件改变等情况都极为稳健,同时还要有实时任务需要的速度。RGB-D 传感器的出现,使得在弱灯光环境下推断低纹理目标姿态的准确率比只用 RGB 方法的准确率更高。尽管如此,已有的方法难以同时满足姿态估计准确率和推断速度的需求。

传统方法首先从 RGB-D 数据中提取特征,完成对应的分组和假设验证。但是,对手动特征的依赖和固定的匹配程序限制了它们在重度遮挡、灯光变化环境下的表现。近来在视觉识别领域取得的成果激发了一系列数据驱动方法,即使用 PoseCNN[40] 和 MCN [16] 这样的深度网络对 RGB-D 输入做姿态估计。

但是,这些方法需要精心制作后分析微调步骤,从而完整利用 3D 信息,例如 PoseCNN 中生成的高级定制的迭代最近点(ICP)和 MCN 中多视角假设验证规划。这些微调步骤不能与最终目标函数联合优化,在现实应用中也极为缓慢。在自动驾驶中,有一种第三方解决方案被提出,它能够通过 Frustrum PointNet[22] 和 PointFusion[41] 这样的端到端深度模型很好地利用 RGB-D 数据中颜色和深度信息的补充性质。在驾驶场景中,这些模型取得了非常好的表现,也有很好的实时推理能力。但是,根据经验可知,这些方法在重度遮挡环境下不符合标准,这是实际操控领域中非常常见的一种情况。

在本文中,研究者提出一种端到端的深度学习方法,对 RGB-D 输入的已知物体进行 6D 姿态估计。该方法的核心是在每个像素级别嵌入、融合 RGB 值和点云,这和之前使用图像块计算全局特征 [41] 或 2D 边界框 [22] 的研究相反。这种像素级融合方法使得本文的模型能够明确地推理局部外观和几何信息,这对处理重度遮挡情况至关重要。此外,研究者还提出了一种迭代方法,能够在端到端学习框架中完成姿态微调。这极大地提高了模型性能,同时保证了实时推理速度。

研究者在两个流行的 6D 姿态估计基准——YCB-Video 和 LineMOD 上评估了他们的方法。结果表明,在经过 ICP 改进后,该方法的性能超越了当前最佳的 PoseCNN,其姿态估计准确率提高了 3.5%,推断速度提高了 200 倍。值得一提的是,这一 dense fusion 新方法在高度凌乱的场景中表现出了鲁棒性。最后,研究者还在一个真实的机器人任务中展示了它的用途,在这项任务中,机器人估计目标的姿态并抓取它们以清理桌面。

总而言之,本文的贡献主要分为两个方面:首先,研究者提出了一种将 RGB-D 输入中的颜色和深度信息结合起来的原则性方法。他们利用为该任务学习的嵌入空间中的 2D 信息来增加每个 3D 点的信息,并使用这个新的颜色深度空间来估计 6D 姿态。其次,他们在神经网络架构中集成了一个迭代的微调过程,消除了之前的后处理 ICP 步骤方法的依赖性。

论文:DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion 

论文地址:https://arxiv.org/abs/1901.04780

摘要:根据 RGB-D 图像进行 6D 目标姿态估计的一个主要技术挑战是如何充分利用两个互补数据源。先前的研究要么分别从 RGB 图像和深度中提取信息,要么使用代价较高的后处理步骤,限制了它们在高度混乱的场景和实时应用中的性能。在本文中,研究者提出了 DenseFusion。这是一个用于估计 RGB-D 图像中已知目标 6D 姿态的通用框架。DenseFusion 是一种异质架构,可单独处理两个数据源,并且使用新颖的 dense fusion 网络来提取像素级的密集特征嵌入,从中估计姿势。此外,研究者整合了端到端的迭代姿态微调程序,该程序进一步改善了姿态估计,同时实现了近实时推理。研究实验表明 DenseFusion 在 YCB-Video 和 LineMOD 两个数据集上的表现优于当前最先进的方法。研究者也将该方法应用于真实的机器人上,使其可以根据估计的姿态来抓取和操纵目标。

3 模型

研究者的目标是在混乱场景的 RGB-D 图像中估计出一组已知目标的 6D 姿态。通常情况下,将 6D 姿势视为齐次变化矩阵,p ∈ SE(3)。换句话说就是,6D 姿态是由旋转 R ∈ SO(3) 和平移 t ∈ R 3 , p = [R|t] 组成的。既然是从拍摄图像中对目标进行 6D 姿态的估计,那么目标姿态就要相对于相机的坐标框架来定义。

要想在不利的条件下(例如,重度遮挡,光线不足等)估计已知目标的姿态,只有结合颜色和深度图像通道中的信息才有可能。但是,这两个数据源是不同空间的。因此,从异质数据源中提取特征并把它们恰当地融合在一起是这个领域中的主要技术挑战。

研究者通过以下方式来应对这一挑战:(1)一个能够分别处理颜色和深度图像信息并且可以保留每个数据源原始结构的异质框架;(2)一个通过利用数据源间的内在映射融合颜色-深度图像信息的密集像素级融合网络。最后,姿态估计可以通过可微分的迭代微调模块进一步微调。相较于昂贵的事后微调步骤,本文中的微调模块能够和主架构一起训练,并且只会占用总推理时间的一小部分。

3.1 架构概览

图 2. 本研究中的 6D 姿态估计模型概览。该模型从 RGB 图像中生成目标分割掩码和边界框。深度图中的 RGB 颜色和点云被编码为嵌入并在每个对应的像素上进行融合。

上述模型的架构主要包含两个阶段。第一个阶段将彩色图像作为输入,为每个已知的目标类别执行语义分割。接下来,对于每个分割后的目标,研究者将掩码深度像素(转换为 3D 点云)及掩码边框裁剪的图像块导入到第二阶段。

第二个阶段处理分割的结果并估计目标的 6D 姿态。它包含四个部分:a)一个处理颜色信息的全卷积网络,该网络将图像块中的每个像素映射到一个颜色特征嵌入中;b)一个基于 PointNet 的网络,该网络将带有掩码的 3D 点云中的每个点处理为一个几何特征嵌入;c)一个像素级的 fusion 网络,该网络将两个嵌入结合起来并基于无监督置信度得分输出目标的 6D 姿态估计;d)一个迭代的自微调方法,该方法以课程学习的方式对网络进行训练,并迭代地微调估计结果。a、b、c 见图 2。d 见图 3。

图 3:迭代姿态微调。研究者引入了一个网络模块来改进迭代过程中的姿态估计。

4 实验

在实验部分,研究者想解答以下几个问题:1)dense fusion 网络与单纯的整体 fusion-by-concatenation 相比如何?2)dense fusion 和预测方案对重度遮挡和分割误差是否鲁棒?3)迭代微调模块能够改善最终的姿态估计吗?4)本文的方法对下游任务(如机器人抓取)来说是否足够鲁棒和高效?

为了回答前面三个问题,研究者在两个具有挑战性的 6D 目标姿态估计数据集上评估了这一方法:YCB-Video 数据集 [40] 和 LineMOD [12] 数据集。YCB-Video 数据集包含不同遮挡程度、形状和纹理级别的目标。因此它对该抗遮挡、多模态融合的方法来说是一个理想的试验台。LineMOD 数据集是一个广泛使用的数据集,允许我们与更多现有方法进行比较。研究者将本文的方法与最先进的方法 [14, 30] 以及模型变体进行比较。为了解答最后一个问题,研究者在真实的机器人平台上部署其模型,然后在使用该模型预测的任务中评估了机器人在抓取任务中的性能。

图 1:研究者开发了一个端到端的深度网络模型,用于根据 RGB-D 数据进行 6D 姿态估计。该模型能够在实时应用(如机器人抓取和操控)中进行快速准确的预测。

表 1:在 YCB-Video 数据集上对 6D 姿态(ADD-S[40])进行定量评估。加粗的目标是对称的。

图 5:遮挡程度不断加大时模型性能的变化。通过计算图像帧中每个目标不可见表面的百分比来估计遮挡程度。与基线方法相比,本文的方法在重度遮挡的情况下表现更稳健。

表 3:运行时分解(YCBVideo 数据集上每帧的秒数)。本文的方法几乎比 PoseCNN+ICP 快了 200 倍。Seg 表示 Segmentation(分割),PE 表示 Pose Estimation(姿态估计)。

图 4:在 YCB-Video 数据集上的定性结果。用和 PoseCNN 中相同的分割掩码对三种方法进行测试。不同颜色中的每个目标点云通过预测的姿态来变换,然后投影到 2D 图像帧上。上两行用的是以前的 RGB-D 方法,最后一行用的是本文提出的 dense fusion 与迭代微调方法(迭代 2 次)。

表 2:在 LineMOD 数据集上对 6D 姿态(ADD[13])进行定量估计。加粗的目标是对称的。

图 6:在 LineMOD 数据集上的迭代微调性能。可视化该研究中的迭代微调程序如何纠正最初的次优姿态估计。

理论机器人抓取姿态估计李飞飞
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

全卷积网络技术

全卷积网络最开始在论文 Fully Convolutional Networks for Semantic Segmentation(2015)中提出,它将传统卷积神经网络最后几个全连接层替换为卷积层。引入全卷积的意义在于它能实现密集型的预测,即在二维卷积下对图像实现像素级的分类,在一维卷积下对序列实现元素级的预测。

迭代 技术

模型的权重在训练期间的一次更新。迭代包含计算参数在单个批量数据上的梯度损失。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

推荐文章
暂无评论
暂无评论~