ICCV 2019丨 RepPoints: 替代边界框,基于点集的物体表示新方法

现有的物体理解方法几乎都是基于边界框的表示方法,难以描述物体更加细粒度的几何信息。在 ICCV 2019上,微软亚洲研究院的团队发表论文 “RepPoints: Point Set Representation for Object Detection”,介绍了一种基于点集来替代边界框的物体表示新方法,能够学习到更丰富、更自然的物体表示。

视觉理解任务通常以物体为中心,例如微软 Kinect 中的人体姿态估计与跟踪、自动驾驶中的避障等等。在深度学习时代,这些任务通常遵循这样的范式:在图像中先定位物体的边界框,再从边界框中抽取特征,最后基于边界框里抽取的特征进行物体的识别和推理。

现有的物体理解方法几乎都是基于边界框的表示方法,这主要是由于边界框具有如下的实用特点:一是它们很容易标注而且没有歧义,二是这种表示易于提取物体特征(例如基于规格化采样的 RoIAlign 算法)。

尽管如此,基于边界框的物体表示方法也有一些缺点。例如,边界框所表达的几何信息比较粗糙,这种方式不能描述人体姿态等更加细粒度的信息。此外,基于网格点的特征提取由于网格点不一定位于有意义的物体区域而导致其不够精确。如图1左所示,边界框中不少特征是从背景而不是从前景物体提取出来的。

图1:基于边界框的物体表示和特征提取(左),基于RepPoints的物体表示和特征提取(右)

在即将召开的 ICCV 2019上,微软亚洲研究院的团队发表论文 “RepPoints: Point Set Representation for Object Detection”,介绍了一种基于点集来替代边界框的物体表示新方法。如图2右所示,这种新的表示方法有潜力适应物体姿态或形状的变化,称为代表性点集(RepPoints)。RepPoints 能自适应地分布在物体重要的局部语义区域,并能表征物体的几何外延,从而提供了一个对物体更加细致的几何描述,同时这些点也能用于提取对识别有用的图像特征。

图2:RepPoints (绿色的点集) 可以从物体中心点的特征通过一个3x3大小的卷积回归得到

RepPoints采用弱监督的方式定位关键点

RepPoints 工作的方式很简单。给定靠近物体中心的源点(图2中以红色标记点),将一个 3x3 的卷积应用于这个点的图像特征上,回归出多个目标点和中心源点的偏移值,这些目标点共同构成代表性点集(RepPoints)。如图2所示,与边界框的表示方法相比,这样有望实现更精确的关键点检测。此外,源点是从图中均匀采样的,而不需要像在基于边界框的技术中那样采用一些 anchor 框。

RepPoints 的学习由两项监督信息驱动,分别是几何定位和物体识别。如图3所示,上半支显示的是几何定位的监督部分,先将网络得到的点集转换成矩形伪框,伪框和真实框的差异可作为监督信号驱动 RepPoints 的学习。下半支显示的是物体识别的监督部分,这部分驱动 RepPoints 学到对物体识别有用的位置。
图3:RepPoints 的学习通过两部分监督得到

基于RepPoints,无需Anchor的物体检测器

将多阶段物体检测方法中的边界框表示,包括锚点(anchor)、候选框(proposal)和输出边界框,全部用 RepPoints 的表示替换后,就得到了一种基于 RepPoints 的物体检测器。如表1所示,在 COCO 物体检测基准数据集上,将物体表示方法从边界框更改为 RepPoints 时,RepPoints 获得了约2 mAP的性能提升。如表2所示,基于 RepPoints 的目标检测器(记作 RPDet)取得了 46.5 的单模型性能,是目前最好的无锚点(anchor-free)检测器之一。
表1:RepPoints 和边界框两种物体表示方法在 COCO 物体检测上的比较
表2:基于 RepPoints 的无锚点检测器(RPDet)的性能

总体来讲,学习像 RepPoints 这样更丰富、更自然的物体表示方法是物体检测领域值得探索的方向。除了物体检测外,RepPoints 作为对物体的一种新的表示方法,也有望改进其他物体感知任务,例如物体分割等。

目前 RepPoints 已公布论文和开源代码,如果您想了解更多细节,请查看:

论文地址:https://arxiv.org/abs/1904.11490
GitHub:https://github.com/Microsoft/RepPoints
微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

理论特征抽取机器视觉理解物体识别ICCV 2019
2
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

人体姿态估计技术

人体姿态估计是计算机视觉领域的一个重要问题,主要用于跟踪一个人的每一个小动作并实时进行生物力学分析。

推荐文章
暂无评论
暂无评论~