旷视&清华大学联合提出新型两步检测器Light-Head R-CNN

近日,来自旷视和清华的研究者提出一种新型两步检测器 Light-Head R-CNN,改变两步检测器头重脚轻(heavy-head)的设计,实现速度和准确率的双重突破。

近期基于 CNN 的目标检测器可以分为一步检测器和两步检测器。一步检测器通常聚焦于快速、高准确率地检测最佳点(sweet-spot)。两步检测器将任务分为两步:第一步(检测器体/body)生成多个 proposal,第二步(检测器头/head)识别 proposal。通常情况下,为了达到最高准确率,头的设计比较复杂。两步检测器检测最佳点通常速度较慢,但是准确率很高。

两步检测器(two-stage detector)可以在效率和准确率方面都战胜一步检测器吗?来自旷视和清华的研究者发现典型的两步检测器如 Faster R-CNN [5] 和 R-FCN [17] 具备相同的特征:与主干网络连接的检测器头比较重(heavy head)。例如,Faster R-CNN 在 ResNet 第 5 阶段中部署两个大型全连接层或所有卷积层用于每个 RoI(感兴趣区域)识别和回归。每个区域的预测都很耗时,当使用大量 proposal 时,需要的时间就更多。此外,RoI pooling 之后的特征通道很多,使得第一个全连接层消耗大量内存,影响计算速度。与多次应用每个区域子网络的 Fast/Faster R-CNN 不同,基于区域的全卷积网络(R-FCN)[17] 尝试在所有 RoI 中共享计算。但是,R-FCN 需要使用 #classes × p × p(p 是随后的池化规模)通道生成非常大的额外得分图(score map),这同样需要大量内存和时间。Faster R-CNN 或 R-FCN 的重头设计使得在使用小的主干网络时两步检测器的竞争力较弱。

这篇论文提出一种轻量级检测器头设计以构建一个高效、准确率高的两步检测器。具体来说,使用一个大内核可分卷积和少量通道(实验中使用的是α × p × p,且α ≤ 10)生成稀疏的特征地图。该设计的计算量使随后的 RoI 子网络计算量大幅降低,检测系统所需内存减少。将一个廉价的全连接层附加到池化层上,充分利用分类和回归的特征表示。

因其轻量级头部结构,该检测器能够实现速度和准确率之间的最优权衡,不管使用的是大主干网络还是小主干网络。如图 1 所示,该论文中的算法(Light-Head R-CNN)显著优于快速的一步检测器,如 SSD [22] 和 YOLOv2 [27]。此外,该算法还很灵活,适用于大型主干网络。基于 ResNet-101 主干网络,该算法优于顶尖的算法,包括两步检测器如 Mask R-CNN [7] 和一步检测器如 RetinaNet [20]。


图 1. Light Head R-CNN 与之前的一步、两步检测器的对比。研究者展示了在不同主干网络上的结果。由于设计理念更好,Light Head R-CNN 显著优于其他检测器,且能够提供一个新的上包络线。注意:这里使用的所有结果都是使用单尺度训练获取的。多尺度训练结果见表 5。


图 2. 方法概览。Light-Head R-CNN 在 RoI warping 之前使用大型可分卷积构建稀疏的特征地图。研究者在 R-CNN 子网络中使用带有 2048 个通道的单个全连接层。由于更稀疏的特征地图和廉价的 R-CNN 子网络,整个网络高效且达到很好的准确率。


图 3. 大型可分卷积按顺序执行 k × 1 和 1 × k 卷积层。计算复杂度可以通过 C_mid 和 C_out 进一步进行控制。


图 4. 该网络用于评估稀疏特征地图的影响。研究者使该网络和 R-FCN 一样,除了降低用于 PSRoI pooling 的特征地图通道。研究者添加额外的全连接层用于最终的预测。


表 4. Light-Head R-CNN 的效果。R-FCN 和 Fast R-CNN 的基线基于设置 L(3.2)。


表 5. 不同大小的单个模型在 COCO test-dev 上的对比。所有实验都使用 Resnet-101 作为基础特征提取器(除了 R-RMI 使用的是 Inception Resnet V2 [33])。Light-Head R-CNN 达到了最好的准确率,且超过之间的最优准确率。注意: test-dev 的结果与 mini-validation 上的结果有些微不同。「ms-train」代表多尺度训练。


表 7. 高效 Xception,类似 Light-Head R-CNN 检测器的架构。Comp* 指网络的复杂度(浮点)。


表 8. Light-Head R-CNN 检测器与其他检测器在 COCO test- dev 上的结果对比。Xception* 指小的 xception 如 主干网络。通过添加一个小的基础模型,Light R-CNN 在准确率和速度上都达到了更好的表现,这表明该设计的灵活性。

论文:Light-Head R-CNN: In Defense of Two-Stage Object Detector


论文地址:https://arxiv.org/pdf/1711.07264.pdf

在这篇论文中,我们首先研究了经典的两步方法慢于一步检测器(如 YOLO 和 SSD)的原因。我们发现 Faster R-CNN 和 R-FCN 会在 RoI warping 之前或之后进行高强度的计算。Faster R-CNN 包含两个全连接层用于 RoI 识别,而 R-FCN 会生成一个大型得分地图。因此,这些网络的速度会被架构的 heavy-head(头重脚轻的)设计拖慢速度。即使大量简化了基础模型,计算成本也没有随之显著降低。

我们提出了一种新的两步检测器 Light-Head R-CNN,用于克服当前两步方法的缺陷。在我们的设计中,通过使用一个稀疏的特征地图和一个廉价的 R-CNN 子网络(池化和单全连接层),我们把网络的头部尽可能轻量化。我们基于 ResNet-101 的 Light-Head R-CNN 在 COCO 数据集上的性能超过当前最佳的目标检测器,同时保证时间效率。更重要的是,通过简单地用一个小型网络(如 Xception)替换主干网络,Light-Head R-CNN 在 COCO 数据集上获得了 30.7 mmAP 和 102 FPS 的结果,在速度和准确率上显著优于快速的一步检测器(如 YOLO 和 SSD)。模型代码稍后公布。

理论清华大学旷视科技创业公司理论论文计算机视觉
暂无评论
暂无评论~