Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

ICCV 2023 | 实现实时六自由度物体跟踪,深度主动轮廓模型DeepAC来了

本文介绍了一篇由国防科技大学刘煜教授团队和浙江大学 - 商汤联合实验室周晓巍教授团队联合撰写的论文《Deep Active Contours for Real-time 6-DoF Object Tracking》,该论文已被计算机视觉人工智能顶尖国际会议 ICCV 2023 录用。仅需要提供 CAD 框架模型,就可以在多种光照条件和局部遮挡情况下实现对立体物体的实时跟踪。传统的基于优化的方法根据手工特征将物体 CAD 模型的投影与查询图像对齐来求解位姿,容易陷入局部最优解;最近的基于学习的方法使用深度网络来预测位姿,但其要么预测精度有限,要么需要提供 CAD 纹理模型。

为此,研究员王龙和博士生颜深创新性地提出一种解决方案 DeepAC。DeepAC 结合了传统方法和深度学习方法的优势,提出了一个深度主动轮廓模型,以解决六自由度物体跟踪的问题。给定初始位姿,首先物体 CAD 模型会投影到图像平面上以获得初始轮廓,然后一个轻量级网络用于预测该轮廓应如何移动,以匹配图像中物体的真实边界,从而为物体位姿优化提供梯度。最后,提出了一种可微的优化算法,可以使用物体位姿真值端到端监督训练所提模型。在半合成和真实六自由度物体跟踪数据集上的实验结果表明,所提模型在定位精度方面大幅超过了当前最先进方法,并在移动端达到了实时性能。

图片

  • 论文地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Wang_Deep_Active_Contours_for_Real-time_6-DoF_Object_Tracking_ICCV_2023_paper.pdf

  • 项目主页:https://zju3dv.github.io/deep_ac/

背景 

目前主流的六自由度物体跟踪方法分为基于关键点、基于边缘和基于区域三类。基于关键点的方法通过在二维图像和三维物体模型之间匹配关键点特征,来求解物体位姿;基于边缘的方法利用边缘信息 (显式或隐式) 计算两幅连续图像之间的相对位姿;基于区域的方法利用物体区域与背景区域在颜色统计上的区别,来求解物体位姿。然而,上述基于优化的方法存在一个共同缺点:它们需要手工设计特征和细致调整参数,使其不能稳健地应用于各类真实场景。

近年来,一些端到端学习方法被提出以增强六自由度物体定位的鲁棒性,包括:直接回归几何参数;采用渲染 - 比对来迭代地优化位姿。尽管基于学习的方法具有潜力,但是直接回归法精度有限、泛化能力差;而渲染 - 比对法计算量大、不适用于实时应用,且需要提供带纹理的 CAD 模型。如何结合了传统优化方法和基于学习方法的优势,能够仅在 CAD 网格模型引导下,准确、鲁棒、实时地求解物体位姿,是一个亟待解决的问题。

六自由度物体跟踪的相关工作

1 基于优化的六自由度物体跟踪方法

基于优化的方法常用于解决六自由度物体跟踪问题,具体可以分为三种不同的类别:基于关键点 (Keypoint)、基于边缘 (Edge) 和基于区域 (Region)。基于关键点的方法利用局部特征匹配或光流技术建立 2D-3D 对应关系。虽然这种方法表现出了出色的性能,但它需要提供物体的纹理模型。为了解决这个问题,研究人员提出了基于边缘的方法,通过隐式或显示地分析物体边缘位移,判断物体六自由度位姿变化。例如,RAPiD 通过在投影边缘的正交方向上搜索最大梯度,来估计连续帧之间的相对位姿。然而,基于边缘的方法处理不好背景有杂物和运动模糊的情况。

这几年,基于区域的方法在复杂环境的跟踪任务中取得了显著进展。该研究最早可以追溯到 PWP3D 的工作,其有效地结合了前背景分割的统计模型和物体投影的边界距离场来优化物体位姿。近年来,RBGT 引入了多视角预计算的稀疏对应线 (Correspondence lines),建立符合了高斯分布的概率模型,并使用牛顿法快速收敛到物体位姿。SRT3D 引入了平滑的阶跃函数,考虑到全局和局部不确定性,相较于现有方法有明显改进。然而,基于区域的物体连续位姿估计算法会受到人工定义的特征和参数限制。

2 基于学习的六自由度物体跟踪方法

近年来,深度学习方法在六自由度物体姿态估计领域取得了显著进展。其中一种方法是直接预测旋转和平移参数。另一种方法则是通过检测或回归物体坐标生成 2D-3D 对应关系,进而使用 PnP 求解器估计六自由度位姿。然而,仅通过单个网络预测物体位姿,其输出往往不准确。

为了克服这个问题,一些研究采用迭代优化的技术以取得更精确的结果。这类方法的关键是迭代的 “渲染 - 比对” 思想。在每次迭代中,利用当前估计的物体位姿渲染三维纹理模型,然后将渲染图像与实际图像进行比较,并用神经网络更新位姿,从而使两者逐渐对齐。目前,基于学习的方法的主要不足是需要使用 GPU,这使得它们不适合在移动应用程序中部署,例如虚拟现实增强现实应用。此外,这类方法需要提供物体的纹理模型,但在实际任务中,用户预先获取的往往是一个三维扫描或者人工设计的 CAD 网格模型。

方法

针对上述背景和相关工作,论文提出了提出了一种传统方法和学习方法结合的方案。给定一个视频序列图片和初始时刻的物体位姿,所提方法使用当前帧的单个 RGB 图像图片和前一帧该物体位姿图片来求解当前帧的物体位姿图片

图片

1 轮廓特征图提取

利用上一帧的物体位姿,在 RGB 图像上裁剪出一个包含目标物体的矩阵区域图片,并使用以 MobileNetV2 为基础的 FPN-Lite 网络,对图像图片提取多层特征。提取的多尺度特征图表示为图片,包含一系列由粗到细的特征信息。其中,图片图片图片图片分别表示尺度为 s 的特征图宽度、高度和维度,图片为提取特征的层数。这种由粗到细的网络设计可以使得神经网络编码到更广的空间信息,从而提高在物体大幅度运动情况下的定位精度。下图可视化了一组 FPN-Lite 网络提取的多层次特征图,先用 PCA 对特征图图片进行降维,再表示成 RGB 图像。

图片

受到 RBGT 的启发,论文使用对应线模型 (Correspondence Line Model) 描述二维轮廓的局部区域。具体来说,对应线模型在二维轮廓上均匀采样若干个二维点,并建立相应的对应线图片。每条对应线由一个中心点图片和一个单位法向量图片组成,它们通过三维轮廓点图片及其相关的三维法向量图片投影到二维图像平面上得到。通过在特征图图片插值采样这些二维点集 (使用 PyTorch 的 grid_sample 函数),可生成轮廓特征图图片图片是采样的二维轮廓点的数量。

2 边界图预测

论文设计了一个轻量化网络,用于预测边界概率图图片图片动态设定,以移除图像边缘外的区域。在边界概率图图片中,位于图片坐标处的值表示二维点图片作为第图片条对应线边界的概率。为了提高网络的泛化能力,论文将基于传统统计方法所得到的前景概率图图片和边界概率图图片与轮廓特征图图片融合,作为轻量化网络的输入。

图片

上图详细介绍了边界预测模块的前向传播过程。其使用了三种不同的输入,分别是前景概率图图片和边界概率图图片与轮廓特征图图片。通过在不同阶段使用拼接 (Concat) 操作,将这些信息融入到神经网络中,来预测边界概率图图片。实验表明,将传统统计信息和深度特征进行融合并作为网络的输入,能够显著的提高定位算法的性能指标。

3 位姿优化

本小节基于轻量化网络学习得到的边界概率图图片,采用迭代优化方法恢复当前帧物体的位姿图片。在位姿图片每一轮迭代更新时,二维轮廓点图片和三维轮廓点图片之间重投影误差图片计算如下:

图片

其中,图片为投影轮廓法向向量,图片图片分别为物体在第 k 帧的旋转和平移,π 表示针孔相机模型的投影函数:

图片

其中,图片分别为x,y图像空间方向焦距及光心。给定位姿图片后,重投影图片距离刻画了三维轮廓点图片的投影在第i条的对应线上的位置。该位置作为边界点的似然估计是:

图片

每条对应线上边界点似然估计相互独立,则所有对应线整体似然估计为:

图片

本小节的目标为寻找使得似然估计最大化的位姿图片

为了最大化该似然估计,本小节采用了迭代牛顿法和 Tikhonov 正则化来优化位姿求解。具体的位姿更新方式如下:

图片

式中H为海森矩阵,g是梯度向量,图片为 3×3 的单位矩阵。图片图片分别表示三维旋转和三维平移的正则化参数。由于三维旋转R属于一个李群,所以它可用一个李代数的指数映射表示:

图片

式中,三维向量图片是李代数空间 so (3) 的元素,图片图片的斜对称矩阵。因此一个位姿图片能够被一个六自由度的变量表示图片图片。根据链式求导法则,海森矩阵H和梯度向量g的计算如下:

图片

式中图片为三维轮廓点图片在相机坐标空间的位置。图片为重投影误差相对于相机坐标空间点图片的一阶偏导数,它的计算公式如下:

图片

对于相机坐标空间下的三维点相对于六自由度位姿的一阶偏导数图片的计算,本小节采用经典的扰动模型推导得到如下公式:

图片

为了端到端训练之前所提出的网络模型,本小节采用两种近似方法来估计图片关于图片的一阶导数。第一种近似方法直接使用每条对应线的均值图片和方差图片计算导数,具体计算方式如下:

图片

第二种近似方法利用了三维轮廓投影点附近区域的边界概率,具体计算公式如下:

图片

这两种近似方法具有不同的特性:第一种近似用于直接学习每条对应线上的边界位置图片,从而实现快速收敛。第二种近似用于学习局部边界概率,从而细致优化位姿。此外,方差图片用于刻画每条对应线的不确定性,在位姿求解过程中起到了增强鲁棒性的作用。为了分析边界不确定性对于物体姿态预测的影响,论文采用了一种基于颜色渐变的可视化方法,使用用较暖 (红色) 的颜色来表示边界不确 定性值 (即图片) 较小的区域。从下图中可以看出,物体没有被遮挡的边界对于位姿预测更有帮助,而被遮挡的边界则相对无关紧要。

图片

4 网络监督

论文提出的方法以每次迭代优化后所得的位姿图片与真实位姿图片间的差异为依据:

图片

其中,P是 Huber 鲁棒核函数。为了避免困难样例对模型训练产生不利影响,论文采用了条件损失函数:只有在前一次迭代优化后所得的位姿在真实解附近时,才将其纳入损失函数的计算中;如果某次迭代优化后所得的位姿偏离真实解过大,则忽略其对应的损失项。这样可以保证模型只使用可信度高的训练样本。 

结果

1 与基于优化的方法比较

(1)RBOT 数据集

在 RBOT 数据集上,论文采用 5cm−5召回率,来评估定位的精度。具体而言,每一帧图像是否被成功定位取决于其平移误差是否小于 5cm 且旋转误差是否小于 5

实验结果表明,在常规、动态光照和场景遮挡下,现有的基于优化的方法已经非常接近性能上限,SRT3D 和 LDT3D 的 5cm−5召回率已接近或超过 95%。在这三种情况下,DeepAC 表现出了相似的性能,在常规和动态光照情况下小幅领先,在场景遮挡情况下略微落后。但是,在噪声情况下,所提方法显著优于其他基于优化的方法,5cm−5召回率从 83.2% 提高到 88.0%,这一结果证明了 DeepAC 对图像噪声具有较强的鲁棒性。

图片

(2)BCOT 数据集

论文在 BCOT 数据集上对所提方法进行了实验验证,并采用 ADD-(s) d 和厘米 - 度召回率来评估位姿估计的精度。与在 RBOT 数据集上进行的实验不同,在 BCOT 数据集上,增加了一些更严格的评价指标,即 ADD-0.02d、ADD-0.05d、 ADD-0.1d 以及 2cm−2召回率,以评估算法的高精度定位能力。其中,d 表示物体模型 3D 包围盒的最大长度。

实验结果表明,DeepAC 在所有阈值下的 ADD-(s) d 和厘米 - 度召回率均优于其他基于优化的基线方法。特别是,在非常严格的 ADD-(s) d 标准下,所提方法表现出显著的优势,相比于排名第二的 LDT3D,在 ADD-0.02d、ADD-0.05d 和 ADD-0.1d 上分别提高了 9.1 个百分点、14.1 个百分点和 9.6 个百分点。这些结果充分表明了 DeepAC 具有高精度定位的能力。

图片

(3) OPT 数据集

在 OPT 数据集上,论文先计算不同误差阈值 s 下的 ADD-(s) d 得分,再通过计算曲线下面积 (AUC) 得分来衡量视频序列中物体位姿估计的质量。其中,误差阈值 s 的范围设定为 [0, 0.2]。

下表显示了 DeepAC 在六个物体上均优于当前最先进的基于优化的方法,在 AUC 分数上取得了明显提升。在平均 AUC 分数方面,DeepAC 达到 16.69,比排名第二的方法 SRT3D 高出 6.10%。这些结果表明 DeepAC 在真实场景下具有优异的跟踪能力。 

图片

2 与基于学习的方法比较

为了验证 DeepAC 模型在不同数据集上具有很好的泛化能力,论文在 RBOT 数据集上与当前最先进的基于学习的方法进行了对比实验。论文选取了除 “Clown” 物体外 (因为其纹理图有误) 所有序列作为测试集,并使用平均 ADD-(s) d 和厘米 - 度召回率作为评估指标。为了与其他基于学习的方法公平比较,所提方法 DeepAC 使用相同的训练数据和方式,并记作 DeepAC−。

图片

实验结果显示,其他典型的基于学习的方法定位精度远低于 DeepAC,这充分说明了 DeepAC 在不同数据集上具有很强大且稳定的泛化能力。

3 消融分析

论文通过消融实验分析 DeepAC 中三个主要的设计对物体六自由度定位性能的影响,分别是:1) 统计信息融入;2) 多层特征提取;3) 边界不确定性估计。实验在 RBOT 和 BCOT 数据集上进行,并将结果展示在下表。

图片

应用前景

该研究成果在民用和军事领域都有广泛的应用。在民用领域,该研究可用于强现实、机器人操作和人机交互等众多应用。在军事领域,该研究可用于支持空中无人装备与巡飞弹在复杂光照条件下对目标的多角度实时跟踪与打击。

工程ICCV 2023DeepAC
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

核函数技术

核函数包括线性核函数、多项式核函数、高斯核函数等,其中高斯核函数最常用,可以将数据映射到无穷维,也叫做径向基函数(Radial Basis Function 简称 RBF),是某种沿径向对称的标量函数。最常应用于SVM支持向量机中

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

导数技术

导数(Derivative)是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x_0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x_0) 或 df(x_0)/dx。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

图像提取技术

图像提取包括图像的特征检测和特征提取过程。 特征检测是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征检测的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 特征被检测后它可以从图像中被提取出来。这个过程可能需要许多图像处理的计算机。其结果被称为特征描述或者特征向量。 低层次的特征提取方法包括:边缘检测、角检测、区域检测、脊检测等,还有曲度检测以及运动检测。 高层次的特征提取方法包括:1.固定形状匹配方法如阈值、模板匹配和霍夫变换等;2.灵活变形分析方法。 进一步特征提取与降维有关,常用的降维技术有主成分分析法、独立成分分析法、等距特征映射等。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

对称矩阵技术

在线性代数中,对称矩阵(symmetric matrix)是一个方形矩阵,其转置矩阵和自身相等。对称矩阵中的右上至左下方向元素以主对角线(左上至右下)为轴进行对称。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~