旷视科技Oral论文解读:IoU-Net让目标检测用上定位置信度

目标检测涉及到目标分类和目标定位,但很多基于 CNN 的目标检测方法都存在分类置信度和定位置信度不匹配的问题。针对这一问题,一种称之为 IoU-Net 的目标检测新方法被提出,在基准方法的基础上实现了显著的提升。该论文已被将于当地时间 9 月 8-14 日在德国慕尼黑举办的 ECCV 2018 接收为口头报告。此外,该论文的三位并列一作是在旷视科技实习期间完成并提交的这篇论文。

论文:Acquisition of Localization Confidence for Accurate Object Detection

  • 论文地址:https://arxiv.org/abs/1807.11590

  • 代码地址:https://github.com/vacancy/PreciseRoIPooling

摘要:现代基于 CNN 的目标检测器依靠边界框回归和非极大抑制(NMS)来定位目标,其对类别标签的预测概率可以天然反映每个框的分类置信度,然而对框的定位置信度却缺失了。这使得原本定位准确的边界框会在迭代回归的过程中偏离目标,又或甚至在 NMS 过程中受到抑制。研究者在本文中提出 IoU-Net,可学习预测每个检测得到的边界框和与之匹配的目标之间的 IoU 作为该框的定位置信度。利用这种定位置信度,检测器能确保定位更准确的边界框在 NMS 过程中被保留下来,从而改进了 NMS 过程。此外,将预测得到的 IoU 作为优化目标,一种基于优化的边界框修正方法也同时被提出。研究者在 MS-COCO 数据集上进行了大量实验,结果证明了 IoU-Net 的有效性,并且还表明其能够轻松地集成并提高包括 Faster R-CNN、FPN、Cascade R-CNN 等多种当前最佳的目标检测器。

1 引言

目标检测是很多下游视觉应用的前提基础,比如实例分割 [19,20]、人体骨架绘制 [27]、人脸识别 [26] 和高级目标推理 [30]。它结合了目标分类和目标定位两个任务。现代大多数目标检测器的框架是 two-stage [9,8,22,16,10],其中目标检测被定义为一个多任务学习问题:1)区分前景物体框与背景并为它们分配适当的类别标签;2)回归一组系数使得最大化检测框和目标框之间的交并比(IoU)或其它指标。最后,通过一个 NMS 过程移除冗余的边界框(对同一目标的重复检测)。

在这样的检测流程中,分类和定位被用不同的方法解决。具体来说,给定一个提议框(proposal),每个类别标签的概率可自然而然地用作该提议的「分类置信度」,而边界框回归模块却只是预测了针对该提议框的变换系数,以拟合目标物体的位置。换而言之,在这个流程缺失了「定位置信度」。

定位置信度的缺失带来了两个缺点。(1)首先,在抑制重复检测时,由于定位置信度的缺失,分类分数通常被用作给检测框排名的指标。在图 1(a) 中,研究者展示了一组案例,其中有更高分类置信度的检测框却与其对应的目标物体有更小的重叠。就像 Gresham 著名的「劣币驱逐良币」理论一样,分类置信度和定位准确度之间的不匹配可能会导致定位更准确的边界框在 NMS 过程中反而被更不准确的边界框抑制了。(2)其次,缺乏定位置信度使得被广泛使用的边界框回归方法缺少可解释性或可预测性。举个例子,之前的研究 [3] 报告了迭代式边界框回归的非单调性。也就是说,如果多次应用边界框回归,可能有损输入边界框的定位效果(见图 1(b))。

 图 1:由缺乏定位置信度所造成的两个缺点的图示。这些示例选自 MS-COCO minival [17]。(a)分类置信度和定位准确度不对齐的示例。黄框表示真实目标框,红框和绿框都是 FPN [16] 所得到的检测结果。定位置信度是由研究者提出的 IoU-Net 计算得到的。使用分类置信度作为排名指标,会导致定位更准确的边界框(绿框)在传统的 NMS 流程被错误地删去。2.1 节提供了定量分析。(b)在迭代式边界框回归中非单调定位的示例。2.2 节提供了定量分析。

研究者在这篇论文中引入了 IoU-Net,其能预测检测到的边界框和它们对应的真实目标框之间的 IoU,使得该网络能像其分类模块一样,对检测框的定位精确程度有所掌握。这种简单的预测 IoU 值能为研究者提供前述问题的新解决方案:

1.IoU 是定位准确度的一个天然标准。研究者可以使用预测得到的 IoU 替代分类置信度作为 NMS 中的排名依据。这种技术被称为 IoU 引导式 NMS(IoU-guided NMS),可消除由误导性的分类置信度所造成的抑制错误。

2. 研究者提出了一种基于优化的边界框修正流程,可与传统的基于回归的边界框修正方法分庭抗礼。在推理期间,预测得到的 IoU 可用作优化目标,也可作为定位置信度的可解释性指示量。研究者提出的精准 RoI 池化层(Precise RoI Pooling layer)让研究者可通过梯度上升求解 IoU 优化。研究者表明,相比于基于回归的方法,基于优化的边界框修正方法在实验中能实现定位准确度的单调提升。这种方法完全兼容并可整合进各种不同的基于 CNN 的检测器 [16,3,10]。

边界框修正示例:上行是传统方法的结果,下行是本文提出方法的结果。

2 深入目标定位

2.1 分类准确度和定位准确度不匹配

图 2:边界框与其对应目标框的 IoU 与分类/定位置信度之间的关系。对那些与目标框的 IoU 高于 0.5 的检测框,其 Pearson 相关系数为 (a) 0.217 和 (b) 0.617。(a)分类置信度表示了一个边界框的类别,但不能被解读成定位准确度。(b)为了解决这个问题,研究者提出了 IoU-Net 来预测每个检测到的边界框的定位置信度,即其与对应的目标框的 IoU。

图 3:经过 NMS 之后得到的正例边界框的数量,根据它们与对应的目标框之间的 IoU 分组。在传统 NMS 中(蓝色条形图),定位准确的边界框中有很大一部分会被错误抑制,这是由分类置信度和定位准确度之间的不匹配造成的,而 IoU 引导式 NMS(黄色条形图)则能保留定位更准确的边界框。

2.2 非单调边界框回归

图 4:基于优化的与基于回归的 BBox 优化。(a)在 FPN 中比较。当迭代式地应用回归时,检测结果的 AP(平均精度)首先会提升,但会在之后的迭代中快速降低。(b)在 Cascade R-CNN 中比较。迭代 0、1、2 表示 Cascade R-CNN 中的第 1、2、3 个回归阶段。在多轮回归之后,AP 稍有下降,而基于优化的方法则进一步将 AP 提高了 0.8%。

3 IoU-Net

为了定量地分析 IoU 预测的有效性,研究者首先在 3.1 节提出了用于训练 IoU 预测器的方法。在 3.2 和 3.3 节,研究者分别展示了如何将 IoU 预测器用于 NMS 和边界框修正的方法。最后在 3.4 节,研究者将 IoU 预测器整合进了 FPN [16] 等现有的目标检测器中。

3.1 学习预测 IoU

图 5:研究者提出的 IoU-Net 的完整架构,详见 3.4 节。输入图像首先输入一个 FPN 骨干网络。然后 IoU 预测器读取这个 FPN 骨干网络的输出特征。研究者用 PrRoI 池化层替代了 RoI 池化层,详见 3.3 节。这个 IoU 预测器与 R-CNN 分支有相似的结果。虚线框内的模块能构成一个单独的 IoU-Net。

3.2 IoU 引导式 NMS

算法 1:IoU 引导式 NMS。在这个算法中,分类置信度和定位置信度是解开的(disentangled)。研究者使用定位置信度(预测得到的 IoU)来给所有被检测到的边界框排名,然后基于一个类似聚类的规则来更新分类置信度。

3.3 将边界框修正当作是一个优化过程

算法 2:基于优化的边界框修正

精准 RoI 池化(Precise RoI Pooling

研究者引入了精准 RoI 池化(简写成:PrRoI 池化)来助力研究者的边界框修正。其没有任何坐标量化,而且在边界框坐标上有连续梯度。给定 RoI/PrRoI 池化前的特征图 F(比如,来自 ResNet-50 中的 Conv4),设 wi,j 是该特征图上一个离散位置 (i,j) 处的特征。使用双线性插值,这个离散的特征图可以被视为在任意连续坐标 (x,y) 处都是连续的:

其中,  是插值系数。然后将 RoI 的一个 bin 表示为 ,其中 (x_1,y_1) 和 (x_2,y_2) 分别是左上角和右下角的连续坐标。给定 bin 和特征图 F,研究者通过计算一个二阶积分来执行池化(比如平均池化):

为更便于理解,研究者在图 6 中可视化了 RoI 池化、RoI Align [10] 和研究者的 PrRoI 池化:在传统的 RoI 池化中,连续坐标首先需要被量化(quantization),以计算该 bin 中激活的和;为了消除量化误差,在 RoI Align 中,会采样该 bin 中 N=4 个连续点,表示成 (a_i,b_i),而池化就是在这些采样的点上执行的。RoI Align 中的 N 是预定义的,而且不能根据 bin 的大小进行调整;与此不同,研究者提出的 PrRoI 池化是直接基于连续特征图计算二阶积分。

图 6:RoI 池化、RoI Align 和 PrRoI 池化的图示

3.4 联合训练

这种 IoU 预测器可集成到标准的 FPN 流程中,以进行端到端的训练和推理。为了清楚说明,研究者将用于图像特征提取的 CNN 架构称为骨干(backbone),将应用于各个 RoI 的模块称为头(head)。

如图 5 所示,这个 IoU-Net 使用了 ResNet-FPN [16] 作为骨干网络,其架构是自上而下的,可构建特征金字塔(feature pyramid)。FPN 能根据 RoI 的特征的比例从这个特征金字塔的不同层级提取这些 RoI 的特征。其中原来的 RoI 池化层被换成了精准 RoI 池化层。至于该网络的头,这个 IoU 预测器根据来自骨干网络的同一视觉特征而与 R-CNN 分支(包括分类和边界框回归)并行工作。

研究者根据在 ImageNet [25] 上预训练的 ResNet 模型初始化了权重。所有新的层都使用了标准差为 0.01 或 0.001 的零均值高斯分布进行初始化。研究者使用了平滑 L1 损失来训练 IoU 预测器。IoU 预测器的训练数据是在一个训练批中的图像中单独生成的,详见 3.1 节。IoU 标签进行了归一化,因此其值分布在 [-1,1]。

输入图像的大小进行了调节,短边长度为 800 像素,长边长度最大为 1200 像素。分类和回归分支取来自 RPN 的每张图像 512 RoI。研究者使用了 16 的批大小进行训练。网络为 16 万次迭代进行了优化,学习率设置为 0.01,并在 12 万次迭代后减小 10 倍。研究者还为前 1 万次迭代设置了 0.004 的学习率以进行预热。研究者使用了 1e-4 的权重衰减和 0.9 的 momentum.

在推理过程中,研究者首先对初始坐标应用边界框回归。为了加快推理速度,研究者首先在所有检测到的边界框上应用 IoU 引导式 NMS。然后,使用基于优化的算法进一步改进 100 个有最高分类置信度的边界框。研究者设置步长为 λ=0.5,早停阈值为 Ω1=0.001,定位衰减容限 Ω2=−0.01,迭代次数 T=5。

4 实验

研究者在有 80 个类别的 MS-COCO 检测数据集 [17] 上进行了实验。遵照 [1,16],研究者在 8 万张训练图像和 3.5 万张验证图像的并集(trainval35k)上训练了模型,并在包含 5000 张验证图像的集合(minival)上评估了模型。为验证该方法,在 4.1 节和 4.2 节,研究者与目标检测器分开而训练了一个独立的 IoU-Net(没有 R-CNN 模块)。IoU-Net 助力的 IoU 引导式 NMS 和基于优化的边界框修正被应用在了检测结果上。

4.1 IoU 引导式 NMS

表 1 总结了不同 NMS 方法的表现。尽管 Soft-NMS 能保留更多边界框(其中没有真正的「抑制」),但 IoU 引导式 NMS 还能通过改善检测到的边界框的定位来提升结果。因此,在高 IoU 指标(比如 AP_90)上,IoU 引导式 NMS 显著优于基准方法。

表 1:IoU 引导式 NMS 与其它 NMS 方法的比较。通过保留定位准确的边界框,IoU 引导式 NMS 在具有高匹配 IoU 阈值的 AP(比如 AP_90)上的表现显著更优。

图 7:在匹配检测到的边界框与真实目标框的不同 IoU 阈值下,不同 NMS 方法的召回率曲线。研究者提供了 No-NMS(不抑制边界框)作为召回率曲线的上限。研究者提出的 IoU-NMS 有更高的召回率,并且在高 IoU 阈值(比如 0.8)下能有效收窄与上限的差距。

4.2 基于优化的边界框修正

研究者提出的基于优化的边界框修正与大多数基于 CNN 的目标检测器 [16,3,10] 都兼容,如表 2 所示。将这种边界框修正方法应用在原来的使用单独 IoU-Net 的流程之后还能通过更准确地定位目标而进一步提升表现。即使是对有三级边界框回归运算的 Cascade R-CNN,这种改进方法能进一步将 AP_90 提升 2.8%,将整体 AP 提升 0.8%。

表 2:基于优化的边界框修正能进一步提升多种基于 CNN 的目标检测器的表现。

4.3 联合优化

IoU-Net 可与目标检测框架一起并行地端到端优化。研究者发现,将 IoU 预测器添加到网络中有助于网络学习更具判别性的特征,这能分别将 ResNet50-FPN 和 ResNet101-FPN 的整体 AP 提升 0.6% 和 0.4%。IoU 引导式 NMS 和边界框修正还能进一步提升表现。研究者使用 ResNet101-FPN 得到了 40.6% 的 AP,相比而言基准为 38.5%,提升了 2.1%。表 4 给出了推理速度,表明 IoU-Net 可在计算成本承受范围之内实现检测水平的提升。

表 3:在 MS-COCO 上的最终实验结果。IoU-Net 表示嵌入 IoU 预测器的 ResNet-FPN。在这个 FPN 基准上,研究者实现了约 2% 的 AP 提升。

表 4:多种目标检测器在单个 TITAN X GPU 上得到的推理速度。这些模型都有一样的骨干网络 ResNet50-FPN。输入分辨率为 1200x800。所有超参数设置相同。

5 总结

本文提出一种用于准确目标定位的全新网络架构 IoU-Net。通过学习预测与对应真实目标的 IoU,IoU-Net 可检测到的边界框的「定位置信度」,实现一种 IoU 引导式 NMS 流程,从而防止定位更准确的边界框被抑制。IoU-Net 很直观,可轻松集成到多种不同的检测模型中,大幅提升定位准确度。MS-COCO 实验结果表明了该方法的有效性和实际应用潜力。

从学术研究的角度,本文指出现代检测流程中存在分类置信度和定位置信度不匹配的问题。更进一步,研究者将边界框修正问题重定义为一个全新的优化问题,并提出优于基于回归方法的解决方案。研究者希望这些新视角可以启迪未来的目标检测工作。

理论计算机视觉目标检测高效卷积神经网络
52
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

多任务学习技术

推荐文章
你好~读完这篇文章,我一直有一个问题不太清楚,就是用来训练IOU-Net的数据是通过对GT进行数据增强产生的,这个训练数据包括bbox和label,这个label是分类置信度吗?因为IOU-Net在进行算法1的时候不仅需要根据IOU进行排序,还需要更新分类置信度,所以我的理解是训练数据本身要带有分类置信度才行,不然怎么更新啊
你好~读完这篇文章,我一直有一个问题不太清楚,就是用来训练IOU-Net的数据是通过对GT进行数据增强产生的,这个训练数据包括bbox和label,这个label是分类置信度吗?因为IOU-Net在进行算法1的时候不仅需要根据IOU进行排序,还需要更新分类置信度,所以我的理解是训练数据本身要带有分类置信度才行,不然怎么更新啊