杜佳豪编辑

网格还是轮廓?一种通用的实例分割表示方法Dense RepPoints

目前主流的实例分割方法通常基于网格掩码的表示方法,例如Mask R-CNN、TensorMask等等。轮廓是另一种物体分割的表示方法,30年前曾风靡一时的SNAKE就是基于轮廓表示的一种方法,但在深度学习时代,其精度一直比不上基于网格掩码的方法。微软亚洲研究院联合北大,港中文,上海交大和多伦多大学的研究员们提出了一种全新的利用稠密代表点集(Dense RepPoints)的方法来表示物体,这种新的表示方式具有高度灵活的表达能力,网格与物体轮廓均是其特例。Dense RepPoints还可以用来实现一种结合网格掩码和轮廓两者优点的边缘掩码新表示方法,其基于ResNet-50的backbone在COCO实例分割上取得了39.0 mAP的表现,超越了同期的SOLO,PolarMask,Deep Snake和其后的CondInst。该方法还具有以下优点:

1)Dense RepPoints也可以与PolarMask等方法一样直接表达物体轮廓。但是与PolarMask需要显示地基于手工设计的固定规则来定义每个轮廓点不同,Dense RepPoint直接利用点集间的匹配来学习轮廓,方法更简单也更灵活。

2) 和PointRend一样,Dense RepPoint可以将主要计算放在更重要的物体边缘附近,从而在同样的计算复杂度下,取得更好的分割精度。

3)和此前物体检测和分割采用不同表示不同Dense RepPoints可以同时表示物体不同粒度的几何结构,从而同时提升物体检测和分割的效果。

目前,Dense RepPoints已被ECCV2020所接收,并且相关代码已经开源。

Arxiv: https://arxiv.org/abs/1912.11473

Github: https://github.com/justimyhxu/Dense-RepPoints

RepPoints是一种针对物体检测的表示方法,基于这一表示构建的anchor-free检测器在COCO上取得了很好的性能,但是由于RepPoints只有9个点,且只包含点的位置信息,其无法表示物体更精细的结构,从而难以应用于实例分割任务。去年机器之心曾对这一工作进行了介绍:

https://www.jiqizhixin.com/articles/2019-04-30-7

Dense RepPoints是RepPoints的一个重要拓展,相比于RepPoints,其用更多的点(例如225个)来表示物体,并增加了每个点的属性信息:

Dense RepPoints的通用表示能力

前述重要拓展使得Dense RepPoints不仅仅能刻画物体的物体的几何定位并进行更细粒度的的特征提取,同样能表示更精细的物体结构,例如物体轮廓、网格、边缘等等。具体来说,对于轮廓,DenseRepPoints可以通过boundarysampling来采样轮廓的点得到对轮廓的离散表达;而对于传统的网格掩模,可以利用Gridsampling来用DenseRepPoints模拟网格分布。

如下图所示:

边缘掩码表示:结合轮廓和网格掩码的优点

前述基于轮廓的方法对物体的表达更紧凑(需要更少的信息),且由于更关注对物体边缘的分割,有望得到更精确的边缘。而基于网格掩码的方法通过对网格点做前背景分类的方式来实现物体的分割,更易于学习。基于这两种表达的优点,作者提出了结合轮廓和网格掩码两种表示优点的新表示方法:边缘掩码表示,如上图最右所示。和轮廓表示类似,这一种新表示将点集主要放在物体边缘附近,从而可以更精细地表示物体边缘,另一方面,和网格掩码表示类似,这一方法也采用了代表点前背景分类的方法来实现物体分割,从而更利于学习。注意到这和同期的PointRend将主要计算放在边缘部分的思想很类似,在不提升计算复杂度的情况下得到更高分辨率的输出,从而提升分割的精度。

基于Chamfer Loss的点集监督方法

为了实现上述新的物体表示方法,一个关键问题是如何通过学习让预测的点集位于物体边缘附近。作者提出了一种基Chamfer Loss的点集监督方法,对于每个ground truth的实例mask,我们根据与物体轮廓的距离生成一个和预测点集相同数目的ground-truth点集,越靠近物体边缘的点的采样密度越高,而越远离物体边缘的点的采样密度越低。由于很难精确为每个预测点赋予固定的几何意义,作者提出了利用Chamfer Loss来定义ground-truth点集和预测点集之间整体的差异:

这一种监督方法不需要ground-truth点集和预测点集之间的一一对应关系,从而具有更强的普适性。下图显示了利用该监督方法学到的预测点集的分布,可以看到预测点集很好地学到了物体的边缘附近。

从点集到连续域分割:Delaunay三角化插值

尽管通过的Dense Reppoints可以学习到一组表达物体分割的点集,但由于其本身是稀疏并且是非网格化的,因此需要额外的步骤将得到的点集转化为连续的二进制掩码。为此作者们提出了两种后处理方法Concave Hull 和Triangulation得到最终的分割结果:

Concave Hull: 轮廓采样使用这种后处理方法。首先使用一个阈值对预测点的前景分数进行二值化,然后计算其ConcaveHull得到二值掩模。

Triangulation: 在学习到的点集上应用Delaunay三角剖分将空间分割成三角形,然后由于空间中的每个像素将落入一个三角形内,可以通过三角形中质心坐标进行线性插值获得每个点的分数。最后,利用阈值对插值的分数图进行二值化,得到二值掩模。

与点数无关的高效实现

作者们发现,更多数目的点能提升实例分割的精度,但是整个框架的计算复杂度也迅速增加。为此,该文提出了一种高效的实现方法,其复杂度几乎与点的数目无关。具体来说,针对分类分支,作者发现选用固定数目的group(默认group数目=9)特征,能取得和利用所有点相同的准确度,从而使得这一分支的复杂度不随点数增加(下图左)。针对回归分支,作者发现每个点的refine只需要当前点的特征即可,从而使得其复杂度也和点的数目无关(下图右)。

基于Dense RepPoints的anchor-free实例分割框架

基于Dense RepPoints 的检测和分割的框架如下图所示,除了在物体表示上的创新外,也注意到这一框架是anchor-free的。

主要实验结果

1) Dense RepPoints的高效实现

2)物体的不同表示和点的数目的比较

3)COCO实例分割结果

实例分割的结果上Dense RepPoints在ResNet-101的backbone下比其他的方法都要好,进一步更换ResneXt-101的backbone,Dense RepPoints能达到41.8mAP。

4)COCO物体检测结果

以ResNet-101为backbone,Dense RepPoints在1x设置下可达到42.1 mAP,分别比RepPoints 和Mask R-CNN分别高1.1 mAP和3.9 mAP。 通过使用ResNeXt-101-DCN作为更强的backbone,Dense RepPoints达到了48.9 mAP,超过了所有其他anchor-free的SOTA方法。

此外,在RepPoints V2中,实例分割的性能进一步得到提升,在ResNet-50上取得了最高的实例分割性能39.0 mAP,代码见:https://github.com/Scalsol/RepPointsV2

理论Dense RepPoints实例分割
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

二值化技术

二值化是将像素图像转换为二进制图像的过程。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~