Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

CVPR 2020 Oral | 厦大、深度赋智提出指向性目标的实时联合检测分割网络

上个月,计算机视觉顶会 CVPR 2020 接收论文结果已经正式公布。在 6656 篇有效投稿中,最终有 1470 篇论文被接收,录取率约为 22%。厦门大学媒体分析与计算实验室共有 11 篇论文接受,其中两篇为 Oral。本文将介绍一篇CVPR 2020 Oral 论文,作者来自厦门大学、深度赋智和西安电子科技大,其提出的单阶段协同学习网络在目标检测和目标分割任务中均实现了新的SOTA性能。

  • 论文链接:https://arxiv.org/abs/2003.08813

  • 论文代码:https://github.com/luogen1996/MCN


该论文名为《Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation》,其首次提出单阶段的协同学习网络来同时解决指向性目标检测(Referring Expression Comprehension)和指向性目标分割(Referring Expression Segmentation)两个任务,而且在性能超越了 SOTAs 的条件下,达到了实时检测和协同检测的目的。

论文的共同一作为厦门大学媒体分析与计算实验室(纪荣嵘 团队)硕士生罗根和博士后周奕毅,并由厦门大学媒体分析与计算实验室(纪荣嵘团队)和深度赋智合作指导完 成。以下是论文一作罗根对该论文做出的解读:

背景 

给定一句语言描述,Referring Expression Comprehension (REC) 旨在检测出与该描述相关的目标 bounding box,而 Referring Expression Segmentation (RES) 旨在分割出对应目标。REC 和 RES 长期以来被当成两个不同的 任务来看待并被设计出了大量的单任务网络,例如将语言模块嵌入到语义分割网络(RES)或者利用语言来检索目标(REC)。尽管其中有一些基于目标检索的多阶段网络,例如 MAttNet,能得到两个任务的结果,但究其本质仍是单任务的检索(ranking)网络,其多任务的结果归根于后端的 mask-rcnn。

与此同时,这种依赖于预训练目标检测器先提特征后利用语言特征和其进行交互检索的方式不仅仅费时费力,而且有如下弊端:1)两个任务无法在多模态学习中相互促进;2)frcnn/mrcnn 特征丢失了预训练 CNN 网络的关系先验和空间先验;3)当 proposals 中没有候选目标,检索网络将毫无疑问会失败。

动机

我们认为过去的方法不是解决这两个任务的最佳范式。实际上,这两个任务之间高度趋近且能够互相促进。比如,RES 任务详细的标签能指导视觉和文本之间的对齐而 REC 任务得到更好的定位能力也能帮助 RES 确定目标。因此,很自然地能想到把这两个任务放到一个单阶段网络里学习,在保证速度和精度的同时,又能使两个任务的学习互相促
进。并且这样的多任务尝试在计算机视觉领域已经非常成功,即实例分割(Instance Segmentation)。

但与实例分割不同,这样的联合训练仍存在一个重大问题,即预测分歧 (Prediction Conflict). 预测分歧其实也会存在于实例分割当中,比如框出来的物体没有被分割出来,但对于任务本身的目的而言,这个问题不会显得那么严重。而这个问题在语言指导下的 RES 和 REC 中则会尤为突出:

如上图所示,这样的错误放在 RES 和 REC 中是不可接受的。因此,在解决多任务学习的同时,我们还要考虑两个任务之间的协同性的问题,就此本文首次提出了一种高效且有效的单阶段协同学习网络。

方法

方法上可以分为网络结构和解决预测分歧的设计两块内容,整体框架如下图所示:

1)网络结构:

网络结构上,我们要尽可能保证两个任务之间能相互促进,同时各个部分的设计要复合两个任务的属性。首先我们对视觉特征和语言特征进行多模态多尺度的 fusion。在 REC 部分,我们采用了单尺度的预测并通过一条通路将浅层的多模态特征回传过来。这样的设计一方面考虑到浅层特征带有更多的纹理、颜色信息并且受到 RES 任务的直接监督因而能够促进语言语义的理解,另一方面由于 REC 任务中的 targets 较少,多尺度的预测往往在训练中会带来巨大的负样本数。而 RES 部分,则需要大的分辨率的感受野,因此网络的输出尺度增大同时配备了 ASPP 来增加感受野

此外,两个任务分支间的多次交互保证了在训练过程中能够互相促进。训练阶段,REC 分支回归出 bounding box 以及预测对应的 confidence score,其过程类似于 Yolov3。而 RES 分支则预测出关于目标的概率图,具体细节可以参见论文或者代码。

2)解决预测分歧问题:

预测分歧问题的出现,一方面是由于 RES 定位能力弱造成的(RES 无法精确定位特定的目标而只能得到分割像素的集合,但这不能保证该集合就只包含或者完整包含了指向性物体),另一方面也是由于 RES 的任务更加复杂(在目标不够显著的情况下,REC 仍能得到正确的 bounding box 而 RES 却不能),对训练和学习的要求更高。因此从这两个角度出发,我们考虑如何增强两个任务间的共同关注,同时减少两者之间的分歧。

对此我们提出了协同能量最大化 (Consistency Energy Maximization) 的自监督方法来最大化两者在训练阶段的协同,同时提出了自适应软非定位区域抑制(Adaptive Soft Non-Located Suppression)来在测试阶段利用 REC 的定位能力帮助 RES 更好地定位和区分目标。以上两种方式几乎不会带来任何的额外训练/测试成本,同时能够大大增强两个任务的共同关注。

协同能量最大化 (Consistency Energy Maximization) :

首先考虑训练的问题就需要明确优化的目标,很显然我们要优化两个任务分支的共同关注,但由于两个任务的特征以及性质上有所差异,直接优化两路特征往往会很大程度上影响性能。一个更好的选择则是优化 Attention 特征。一方面 Attention 特征能够更直接地反映出两个任务的关注,另一方面通过残差连接作为额外信息也不会影响原有信息。

这里的 Attention 可以为任意的 Attention,文中我们采用了过去的工作(GARAN Attention)来得到 RES 和 REC 的 Attention 特征分别定义为。接着我们将 Attention 特征投影到平面空间来获得 RES 和 REC 的空间关注(能量幅值):

经过 Softmax 进行归一化后得到。接着我们考虑之间的关系(能量夹角),这里我们用余弦相似度来刻画:

其中为常数项用于归一化。最终协同能量可以被定义为:

最终我们通过最大化来使得两个任务在训练中协同,其中前三项能够最大化共同关注的能量,后两项能够约束非共同关注的能量。

自适应软非定位区域抑制(Adaptive Soft Non-Located Suppression)

为了在测试阶段能够更好的帮助 RES 定位目标,一个自然地想法是采取传统目标检测/实例分割中的 box crop 的方式,利用 REC 检测出来的 box 对 RES 预测出的概率分割图进行裁剪,接着再将其二值化。然而,这种硬性裁剪的方式及其容易将目标的部分也裁剪掉,从而导致性能的下降:

对此,我们提出了一个 Soft 的方式来对框内和框外的分割图概率分布进行重新加权/抑制。给定一个 RES 分支预测的 mask, 以及 REC 预测的 bounding box,中的每个元素会按下式更新:

其中and为加权因子和衰减因子,最后我们再对进行二值化,这样的结果比直接的裁剪方式具有更强的鲁棒性。更进一步地,要如何针对每个不同的样本确定呢?我们通过 bounding box 的 confidence score来对其进行建模。理由也很直观,隐式地建模了框内特征的显著性,通过我们能很好地得到不同样本的加权因子和衰减因此。文中我们采用了如下简单有效的线性关系建模:

其中,,and为超参,来调节加权和衰减的幅度。

实验

实验设计上,为了量化地衡量 prediction conflict,我们设计了一个新的评价指标 Inconsistency Error(IE)。它用于计算 REC 结果与 RES 结果不一致的比例。简单来说,IE 计算了 REC 正确时 RES 错误以及 RES 正确时 REC 错误这两种情况在所有样本中的比例。

实验部分,我们首先比较了网络结构,将我们设计的结构与几种可能的搭配以及单任务的网络进行比较,结果显示我们的网络设计在两个任务的性能上是最优的:

接着,我们比较了不同的推理阶段后处理的方式,结果显示 Soft-NLS 以及 ASNLS 具有更好的鲁棒性,同时够大大降低 IE score。

然后我们进行了控制变量实验,可以看到各个部分都能有效地改进性能,同时我们提出的两个设计能够大大降低 IE score。

最后我们在两个任务上和目前的 SOTAs 进行了比较,结果显示,在两个任务上性能均领先于 SOTAs 的情况下,我们的模型还达到了实时的检测。

展望

实际上,RES 和 REC 只是 language+vision 任务中的一个重要分支,包括另外一些多模态任务在内,过去大家都非常青睐于 FRCNN 的特征,直觉上它可能会表现更好,但很多的事实表明它具有一些劣势并且性能上不会优于 Grid 特征。有兴趣的可以看一下 CVPR 2020 的一篇文章《In Defense of Grid Features for Visual Question Answering》(实验设计堪称典范)。

因此 single-stage 可能会成为一个趋势。除此之外,很多多模态任务之间都有着千丝万缕的关系,如何求同存异可能会是比 bert 这一类预训练模型更值得研究的方向。这两点同时也是本文的两个非常重要的支撑点,也可能是未来进一步发展的方向。

理论CVPR 2020厦门大学深度赋智西安电子科技大学目标检测目标分割SOTA论文
1
相关数据
二值化技术

二值化是将像素图像转换为二进制图像的过程。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

多任务学习技术

实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~