![](https://cdn.jiqizhixin.com/assets/code-modal__close-c158a550a9982aa92801c046548d72945aa912de6f2a012513132fdc02dfc379.png)
Auto Byte
专注未来出行及智能汽车科技
![](https://cdn.jiqizhixin.com/assets/auto-byte__qr-code-89b58c6d2398c12b7def0f2538cac5ff08727062918f9bad97f25b1d61aac000.png)
微信扫一扫获取更多资讯
![](https://cdn.jiqizhixin.com/assets/code-modal__close-c158a550a9982aa92801c046548d72945aa912de6f2a012513132fdc02dfc379.png)
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
![](https://cdn.jiqizhixin.com/assets/science-ai__qr-code-a12e4635c8d3968645bd2b6371981b65b0d21058c5a2c216aef80015b4eb7e43.png)
微信扫一扫获取更多资讯
做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点
CVPR 2020 会议上,有哪些目标检测论文值得关注?
目标检测是计算机视觉中的经典问题之一。凭借大量可用数据、更快的 GPU 和更好的算法,现在我们可以轻松训练计算机以高精度检测出图像中的多个对象。前不久结束的 CVPR 2020 会议在推动目标检测领域发展方面做出了一些贡献,本文就为大家推荐其中 6 篇有价值的目标检测论文。![](https://image.jiqizhixin.com/uploads/editor/f6c76b08-42ba-48fb-bbd0-786b775685da/640.jpeg)
A Hierarchical Graph Network for 3D Object Detection on Point Clouds
HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection
Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud
Camouflaged Object Detection
Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
D2Det: Towards High-Quality Object Detection and Instance Segmentation
1. A Hierarchical Graph Network for 3D Object Detection on Point Clouds![](https://image.jiqizhixin.com/uploads/editor/80357cd2-c133-4350-9ec0-9531d7d736bf/640.png)
这项研究提出了一种基于图卷积 (GConv) 的新型层次图网络 (HGNet),它用于三维目标检测任务,可直接处理原始点云进而预测三维边界框。HGNet 能够有效捕获点之间的关系,并利用多级语义进行目标检测。具体而言,该研究提出了新的 shape-attentive GConv (SA-GConv),它能通过建模点的相对几何位置来描述物体的形状,进而捕获局部形状特征。基于 SA-GConv 的 U 形网络捕获多层次特征,通过改进的投票模块(voting module)将这些特征映射到相同的特征空间中,进而生成候选框(proposal)。该研究提出的模型主要以 VoteNet 作为 backbone,并基于它提出了一系列改进。由下图可以看出:将 VoteNet 中的 PointNet++ 换成特征捕捉能力更强的 GCN;
为 up-sample 的多层中的每一层都接上 voting 模块,整合多个尺度的特征;
在 proposal 之间也使用 GCN 来增强特征的学习能力。
![](https://image.jiqizhixin.com/uploads/editor/f93304cd-7fe0-41c4-82ec-be11819ac580/640.jpeg)
本文提出了 Shape-attentive Graph Convolutions(SA-GConv),并且将这个卷积同时用在了 down-sampling pathway 和 up-sampling pathway 中。本文提出了一个 Proposal Reasoning Module,在 proposal 之间学习其特征之间的交互。![](https://image.jiqizhixin.com/uploads/editor/827a1566-6ec3-4cad-a285-32051a9ff628/640.jpeg)
不同模型在 SUN RGB-D V1 数据集上的实验结果如下所示:![](https://image.jiqizhixin.com/uploads/editor/ba6408b3-ee68-485b-a33c-8a2d68759088/640.png)
2. HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection![](https://image.jiqizhixin.com/uploads/editor/81f1c3fe-2d30-4510-a47b-6217577e4e07/640.png)
这篇论文提出了一种基于点云的自动驾驶三维目标检测 one-stage 网络——混合体素网络 (Hybrid Voxel Network, HVNet),通过在点级别上混合不同尺度的体素特征编码器 (VFE) 得到更好的体素特征编码方法,从而在速度和精度上得到提升。![](https://image.jiqizhixin.com/uploads/editor/52e2c5ab-be3a-4f09-8f51-ec1bfd10f4b4/640.png)
HVNet 采用的体素特征编码(VFE)方法包括以下三个步骤:![](https://image.jiqizhixin.com/uploads/editor/6bb47905-27af-4ec6-abb7-75f0c2dcf960/640.png)
该研究提出的 HVNet 架构包括:HVFE 混合体素特征提取模块;2D 卷积模块;以及检测模块,用来输出最后的预测结果。![](https://image.jiqizhixin.com/uploads/editor/6f114815-fe84-46d6-9fa5-44525e8a775a/640.png)
不同模型在 KITTI 数据集上获得的结果如下表所示:![](https://image.jiqizhixin.com/uploads/editor/61f20daa-35cc-4f3a-b0cc-0fe846785f3f/640.png)
3. Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud![](https://image.jiqizhixin.com/uploads/editor/ed2cd921-4644-4fed-8284-69e197d5b0af/640.png)
基于点云的 3D 目标检测具有非常重要的应用价值,尤其是在自动驾驶领域。使用激光雷达传感器获得的 3D 点云数据描述了周围环境,使得 3D 目标检测能够比单纯使用 RBG 摄像头提供更多的目标信息(不仅有位置信息,还有距离信息)。该研究指出,以往使用 CNN 的方法处理点云数据时往往需要在空间划分 Grids,会出现大量的空白矩阵元素,并不适合稀疏点云;近来出现的类似 PointNet 的方法对点云数据进行分组和采样,取得了不错的结果,但计算成本太大。于是该研究提出一种新型 GNN 网络——Point-GNN。Point-GNN 方法主要分为三个阶段,如下图所示:图构建:使用体素降采样点云进行图构建;
GNN 目标检测(T 次迭代);
边界框合并和评分。
![](https://image.jiqizhixin.com/uploads/editor/c944c8a3-053f-41a4-aca1-67d8b7dc122c/640.png)
以下是不同模型在 KITTI 数据集上获得的结果:![](https://image.jiqizhixin.com/uploads/editor/3b0a29d7-a84b-4c54-8ae2-814f5e463eee/640.jpeg)
4. Camouflaged Object Detection![](https://image.jiqizhixin.com/uploads/editor/be5f49cd-e591-4542-a2e7-d219469c10ce/640.png)
这篇论文解决的问题是:如何检测嵌入在周围环境中的物体,即伪装目标检测(camouflaged object detection,COD)。 此外,该研究还创建了一个名为 COD10K 的新型数据集。它包含 10,000 张图像,涵盖许多自然场景中的伪装物体。该数据集具有 78 个类别,每张图像均具备类别标签、边界框、实例级标签和抠图级(matting-level)标签。下图展示了 COD10K 数据集中的样本示例及其难点。![](https://image.jiqizhixin.com/uploads/editor/44046b7a-da6d-4712-94e2-ca731f553374/640.png)
![](https://image.jiqizhixin.com/uploads/editor/744659af-b3c5-4f15-9cbd-f0f9246f6554/640.png)
为了解决伪装目标检测问题,该研究提出了一种叫做搜索识别网络(Search Identification Network,SINet)的 COD 框架。搜索模块(SM),用于搜索伪装的物体;
识别模块(IM),用于检测该物体。
![](https://image.jiqizhixin.com/uploads/editor/0f4272d8-0017-4f31-aa77-5a7b0a60493f/640.png)
![](https://image.jiqizhixin.com/uploads/editor/361a55f9-4c22-4573-adf7-d03f14ed4515/640.png)
5. Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector![](https://image.jiqizhixin.com/uploads/editor/0a98bde1-7aea-4604-94de-6795b1e946b5/640.png)
传统的目标检测算法需要大量数据标注才能训练模型,而数据标注不但耗费人力,可能还会因为标注质量而影响训练效果。这篇论文提出了一种「小样本」目标检测网络,旨在通过少量标注数据使模型有效检测到从未见过的目标。该方法的核心包括三点:Attention-RPN、Multi-Relation Detector 和 Contrastive Training strategy,利用小样本 support set 和 query set 的相似性来检测新的目标,同时抑制 background 中的错误检测。该团队还贡献了一个新的数据集,该数据集包含 1000 个类别,且具备高质量的标注。该研究提出一个新型注意力网络,能在 RPN 模块和检测器上学习 support set 和 query set 之间的匹配关系;下图中的 weight shared network 有多个分支,可以分为两类,一类用于 query set,另一类用于 support set(support set 的分支可以有多个,用来输入不同的 support 图像,图中只画了一个),处理 query set 的分支是 Faster RCNN 网络。![](https://image.jiqizhixin.com/uploads/editor/2eec316f-aab5-4a5d-b93c-37e4cd1f4d80/640.jpeg)
作者还提出用 Attention RPN 来过滤掉不属于 support set 的目标。![](https://image.jiqizhixin.com/uploads/editor/f95b1792-76b2-43aa-9110-f2257b6e26d8/640.png)
以下是不同模型在 ImageNet 数据集上的实验结果:![](https://image.jiqizhixin.com/uploads/editor/47d25762-d462-410e-953e-2bf6ba55f3bd/640.jpeg)
![](https://image.jiqizhixin.com/uploads/editor/937937d1-730e-4090-87a2-5250725f80b5/640.png)
6. D2Det: Towards High-Quality Object Detection and Instance Segmentation![](https://image.jiqizhixin.com/uploads/editor/7d2283e8-35db-499b-8a6b-37b01a881cfd/640.png)
这篇论文提出了一种提高定位精度和分类准确率的方法 D2Det,以提升目标检测的效果。针对这两项挑战,该研究分别提出了 dense local regression(DLR)和 discriminative RoI pooling(DRP)两个模块。其中 DLR 与 anchor-free 方法 FCOS 的 detect loss 类似,DRP 则是利用了 deformable convolution 的思想,分别从第一阶段和第二阶段提取准确的目标特征区域,进而获得相应的性能提升。具体方法流程如下图所示:![](https://image.jiqizhixin.com/uploads/editor/3d9db43d-8881-4705-a2e5-288db712cec7/640.jpeg)
在这两个阶段中,第一阶段采用区域建议网络(RPN),而第二阶段采用分类和回归的方法,分类方法基于池化,局部回归则用于物体的定位。![](https://image.jiqizhixin.com/uploads/editor/99740192-2a35-4509-9201-5c37736ca370/640.png)
以下是不同模型在 MS COCO 数据集上的结果:![](https://image.jiqizhixin.com/uploads/editor/895cbcfa-c0c7-4b30-9662-e41cab20f5aa/640.png)