NeurIPS 2020 | 微软亚洲研究院论文摘录之目标检测篇

编者按:12月6日至12日,国际人工智能顶级会议 NeurIPS 2020(Conference and Workshop on Neural Information Processing Systems,神经信息处理系统大会)将在线上举办。相比前几年,2020年 NeurIPS 会议不管从论文投稿数量还是接收率都创下了记录:论文投稿数量创历史最高记录,比2019年增长了38%,但接收率却为史上最低。

目标检测(object detection)是计算机视觉中的基础任务,旨在定位图像或视频中某几类物体的坐标位置。本文将对微软亚洲研究院入选 NeurIPS 2020 中的目标检测工作进行介绍。

RelationNet++: Bridging Visual Representation for Object Detection via Transformer Decoder

论文链接:https://arxiv.org/abs/2010.15831

代码链接:https://github.com/microsoft/RelationNet2

现有的各种检测算法通常利用单一的格式来表示物体,比如 RetinaNet 和 Faster R-CNN 中的矩形框、FCOS 和 RepPoints 中的物体中心点、CornerNet 中的角点、以及 RepPoints 和 PSN 中的点集。图1展示了四个主流框架的物体表示形式,以及初始化的物体表示形式如何形成最终的检测框。可以看到,不同的物体表示形式分别利用其框架的特征来回归最终的检测框。

图1:通用物体检测框架的物体表示形式不同的物体表示形式都有其优缺点,例如矩形框表示的优点是更符合现有的物体标注;中心点表示可以避免负责的锚点(anchor)设计,对小物体也更友好;角点表示则对于定位更加准确,对大物体地检测更好、更准。

但由于这些不同表示在特征提取上的异构性和非均匀性,很难将它们有机地融合在一个检测框架中。因此,微软亚洲研究院的研究员们设计了一个 BVR (Briding Visual Representations) 模块来弥合不同的表达方法,它利用 Transformer 中的解码器来实现异构的各种物体表示之间的联系。

对于一个常见的检测器,其使用的物体表示形式被称之为“主表示”(master representation),而其它物体表示形式被称为“辅助表示“(auxiliary representation)。在 BVR 模块中,主表示作为查询(query),类似于机器翻译中的目标语言,辅助表示作为关键字(key),可类比为机器翻译中的源语言,于是就可以将辅助表示的信息融合到主表示中,增强主表示的特征并最终帮助这一检测器。

BVR 模块可以很方便地插入到主流的检测器中,并广泛提升这些检测器的性能,例如在 Faster R-CNN、RetinaNet、FCOS 以及 ATSS 上,这一模块均带来了 1.5~3.0AP 的性能提升。图2展示了如何将 BVR 模块插入到 RetinaNet 中。

图2:如何将 BVR 模块插入到 RetinaNet 中RetinaNet 中,在基于矩形框的锚点表示分支的基础上,额外增加了关于点的预测的头部网络分支,用于预测中心点(center)和角点(corner),并作为主分支的辅助表示(auxiliary representation)。在建模主表示和辅助表示间关系时,需同时考虑表观间的关系,如果将所有的中心点/角点都作为查询输入的话,将会带来极大的计算复杂度。因此,研究员们提出了只利用得分 top-k 的查询选择策略来降低运算、提升效果,并且利用空间域插值的方式来计算几何关系,进一步降低运算代价。关于如何将 BVR 插入到 FCOS、Faster R-CNN 以及 FOCS 中,请阅读原论文进行了解。

最后,将 BVR 模块插入到 ATSS 中时,该模型被称之为 RelationNet++,在 COCO test-dev 集合上达到了 52.7 AP 的性能,如表1所示。

表1:RelationNet++ 在 COCO test-dev 集合上达到了 52.7 AP 的性能

需要注意的是,不久前的 DETR 检测器在视觉领域取得了较大的影响。DETR 主要探讨了 Transformers 应用于物体检测领域的可行性,而 BVR 则关注于提升物体检测器,通过弥合不同物体表示的优点,从而取得更高的性能。另一方面,在建模上两种方式也有所不同,BVR 采用的是稀疏健值(key),并证明了其相比稠密健值更加有效且高效。

RepPoints v2: Verification Meets Regression for Object Detection

论文地址:https://arxiv.org/abs/2007.08508

代码地址:https://github.com/Scalsol/RepPointsV2

物体定位在物体检测任务中是非常重要的组成部分,传统的方法如 Faster-RCNN、RetinaNet 采用的是一种“粗验证,细回归”的范式,它们首先会铺设若干预设好大小的锚点,然后再通过计算锚点与真实框之间的偏移来调整锚点的位置与大小来完成物体定位。最近,一些基于中心点的“纯回归”无锚点(anchor-free)方法,如 FCOS、RepPoints 等却取得了与“粗验证,细回归”方法可比,甚至更好的表现,这不禁让人对物体定位中验证步骤的必要性产生怀疑。

但与此同时,有一系列基于“纯验证”的方法也取得了不错的结果,代表方法就是 CornerNet。通过比较可以发现此类方法在产生高质量(AP90)框的能力上要远远高出上述两类方法。受此启发,微软亚洲研究院的研究员们发现通过在 RepPoints 这样一个纯回归的框架上引入合适的验证任务,能够给模型的表现带来很大提升。

图3:融合方法介绍

如图3所示,研究员们将验证任务作为 RepPoints 的一个旁支,让其高效地与主网络进行特征与结果层面的交互,同时不影响 RepPoints 本身基于点表示的特性。本篇论文主要引入了两种验证任务:一是角点验证,判断特征图上的像素点是否是某个真实框的左上(右下)角点;二是框内前景验证,将物体的外接框作为该物体的粗糙掩码,然后将其当做一个语义分割任务来进行学习。

通过引入这两个验证任务和加入与之相适应的修改,可以获得以下几点好处:

首先是更好的特征:验证任务可以提供训练时额外的监督信号并且验证分支的特征可以与回归分支的特征相融合,这种多任务学习的方式和特征融合的方式在 Mask R-CNN 等方法中已经被证明对提升模型表现非常有效。

其次是联合推断:在特征层面的融合之外,验证分支中的角点验证模块可以对回归分支的结果进行进一步的修正,获得更为精确的结果。

最后,由于本篇论文中提出的方法并不受到具体检测框架的限制,因此可以轻易地拓展到其他物体检测器上,同时也适用于其他视觉任务如实例分割

表2展示了在不同的主干(backbone)网络下,该方法相比于 RepPoints v1 均能够获得2%左右的稳定提升。表3则比较了本文提出的检测器与其他检测器之间的性能。

表2:稳定的性能提升

表3:与其他检测器性能比较

下面两个表格展示了在其它基检测器以及实例分割任务上本文方法的适用性。

表4:在 mmdetection 集合上,验证模块用于 FCOS 方法的实验结果

表5:在 COCO test-dev 集合上,验证模块用于 Dense RepPoints 方法的实验结果

图4展示了 RepPoints V1 和 V2 的预测结果,其中第一行为 V1 的预测结果,第二行为 V2 的预测结果。可以看到 V2 的结果更加准确。

图4:RepPoints V1 和 V2 的预测结果比较

Restoring Negative Information in Few-Shot Object Detection

论文链接:https://arxiv.org/abs/2010.11714

代码链接:https://github.com/yang-yk/NP-RepMet

受制于自身数量和样本获取等原因,不同类别的样本数量分布自然地呈现出长尾现象,类别间样本数量差异很大。深度学习模型往往在样本丰富的类别上能够取得较好的效果,而在样本稀缺的类别上表现却不尽如人意。但在自然界中,人类通常可以通过很少数量的样本就能够完成各项分类识别任务。由此,小样本学习应运而生,其目标是利用样本丰富类别(base classes)提取先验知识并将其推广到弱监督小样本类别(novel classes)的新任务 [1]。

图5:目标检测示例

由于小样本类别上的样本极其有限,所以如何充分利用有限的样本信息就成为了小样本目标检测性能提升的关键。现有的小样本目标检测工作(Meta R-CNN [2]、RepMet [3]等)是在样本丰富类别上训练主干网络或嵌入表示网络,然后通过小样本类别上的支持集(support set)提取和学习小样本集特征并进行小样本目标检测。然而这只利用了正样本(positive)的特征,却忽略了负样本(negative)尤其是困难负样本(hard negative)信息在小样本目标检测中的作用。如图6所示,微软亚洲研究院的研究员们将与样本标签 IoU>0.7 的候选框定义为正样本信息,将 0.2<IoU<0.3 的候选框定义为负样本信息,基于 Faster R-CNN,在 RepMet 的基础上,新建了一个 NP-RepMet 的框架,综合利用正负样本信息可以更好地进行小样本检测。

图6:样本丰富类别训练过程

在样本丰富类别训练的过程中,RPN 和 DML Embedding Module 后通过两个全连接层分别对每个候选框提取正样本和负样本特征,并根据 IoU 对候选框进行正负样本分类。研究员们通过联合训练的方式,利用正样本候选框的特征训练其正样本表示(图6黄色虚线框),利用负样本候选框的特征训练其负样本表示(图6黄色虚线框)。然后,计算每个候选框的正样本特征与学习到的每个类别正样本表示的最小距离,计算每个候选框的负样本特征与学习到的每个类别负样本表示的最小距离。最后,综合利用这两个距离,并将距离通过概率度量模块转换为分类概率进行每个候选框的分类。

图7:小样本类别测试过程

小样本类别的测试过程如图7所示。首先利用有标签支持集上的样本,通过 DML Embedding Module 后全连接层提取到的特征,根据 IoU 进行小样本类别正样本表示和负样本表示的替换。对于查询集(query set)上的测试数据,其计算过程如上图红色箭头所示,与训练过程相同。

与 RepMet 和 Meta R-CNN 保持一致,研究员们分别在 ImageNet-LOC 和 Pascal VOC 上进行了实验,实验结果如下:

表6:在 ImageNet-LOC 上的实验结果

表7:在 Pascal VOC 上的实验结果

可以看到,通过综合利用正负样本信息,小样本目标检测能够取得较大性能提升。相比于 RepMet 和 Meta R-CNN,NP-RepMet 在 5-way 1-shot 条件下,于 ImageNet-LOC 和 Pascal VOC 数据集上的 mAP 均取得了10%以上的提升。 

参考文献:

[1] Wang Y, Yao Q, Kwok J T, et al. Generalizing from a few examples: A survey on few-shot learning[J]. ACM Computing Surveys (CSUR), 2020, 53(3): 1-34.
[2] Yan X, Chen Z, Xu A, et al. Meta R-CNN: Towards general solver for instance-level low-shot learning, CVPR 2019.
[3] Karlinsky L, Shtok J, et al. RepMet: Representative-based metric learning for classification and few-shot object detection, CVPR 2019.
微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

入门NeurIPS 2020
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

www.msra.cn
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

多任务学习技术

实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
小样本学习技术

人类非常擅长通过极少量的样本识别一个新物体,比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在人类的快速学习能力的启发下,研究人员希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习,这就是 Few-shot Learning 要解决的问题。

推荐文章
暂无评论
暂无评论~