清华 卡迪夫 腾讯AI Lab作者

CVPR 2019 | 腾讯AI Lab联合清华大学提出基于骨骼姿态估计的人体实例分割

目前主流实例分割方法都严重依赖于物体的边界框检测,很少有研究者在实例分割中考虑「人」这一个类别的特殊性。在这篇论文中,清华大学、腾讯AI Lab、卡迪夫大学等机构的研究者提出利用骨架检测来定位人体实例,从而构建更高效的实例分割方法。

目前主流的高精度实例物体分割框架都是基于很强的物体检测方法,如 Fast/Faster R-CNN, YOLO 等。虽然不同的方法设计了不同的结构,但是这些方法都遵循着一个基本的规则:首先从图像中生成大量的候选区域,然后用非极大值抑制(NMS)算法从这些数以千计的候选区域中剔除那些重复的候选区域。

但是当图像中有两个高度重叠物体时,NMS 会将其中一个的包围框认为成重复的候选区域然后删掉它。这就意味着几乎所有的基于物体检测的实例分割框架无法处理图像中物体具有高度重叠的情况。

然而在各种物体类别中,「人」是一个很特殊的类别。因为在目前的计算机视觉研究领域,「人体骨骼姿态」已经有了很完备的定义以及丰富的数据标注。相比于包围框,人体骨骼姿态由于包含更多更精准的定位信息,更适合用于区分图像中高度交叠的人体实例(如图 1 所示)。

图 1. 人体骨骼姿态比包围框具有更强的区分图像中严重交叠的人体实例的能力。

通常情况下,实例物体分割框架都会包含一个「对齐模块」,如 Mask R-CNN 中的 RoI-Align、Fast/Faster R-CNN 中的 RoI-Pooling 等。我们提出了一个基于人体骨骼姿态的对齐方法,叫做 Affine-Align。

与基于包围框的对齐算法(如 RoI-Align)不同的是,我们的 Affine-Align 不仅包含了缩放操作与平移操作,还包含了旋转操作和左右翻转操作。因此 Affine-Align 可以被认为是 RoI-Align 的一种更加通用的版本。

另外,Affine-Align 还有一个优点是可以将图中一些奇怪的姿势的人摆正,比如图 2 中所示的那个滑雪的人。正常的姿态朝向可以降低 CNNs 的学习难度,从而达到更高的准确度。

图 2. 对比 Roi-Align 与我们的 Affine-Align

本质上,人体骨骼姿态和人体实例的分割掩模并不是毫不相关的。人体骨骼姿态可以被近似地认为是分割掩模的一种收缩模式。所以我们将人体姿态关键点转化为一种骨骼特征图,并将它与图像特征图拼接,送入分割模块。实验表明我们的人体姿态特征图能显著地帮助提高分割算法的准确度。

此外,我们还提出了一个新的数据集基准 OCHuman。这个数据集包含 4731 张图像,其中有 8110 个经过精心标注的人体实例。全部标注有包围框、人体姿态关节点、以及实例分割掩模。

数据集中的每个人体都有大概 70% 左右的面积被另一个或者多个人所遮挡。这样高度的人与人之间的纠缠与遮挡情况使这个数据集成为了目前与人有关的最有挑战性的数据集。

我们的主要贡献点可以总结为:

  1. 提出了一个全新的基于人体骨骼姿态的实例分割框架。这个框架可以比基于包围框的框架取得更好的效果,特别是对于那些严重遮挡的情况。

  2. 提出了一个基于人体姿态关节点的对齐算法,叫做 Affine-Align。这个算法可以将图像按照图中的人体关节点进行缩放和矫正对齐。

  3. 显示地设计了一种人体骨骼特征图,并用其指引分割模块进行图像分割,取得了更高的分割准确率

  4. 提出了一个新的数据集基准 OCHuman。这个数据集专注于严重遮挡问题,并包含丰富完善的标注。

我们提出的方法

图 3 展示了我们的算法总览。算法的输入是一张图像和多人的人体姿态。我们的算法首先使用一个特征提取网络提取图像的特征,然后用 Affine-Align 将每个实例区域对齐到一个固定的尺度。并引入人体骨骼特征图(Skeleton Features)改善分割效果。下文中将仔细介绍整个系统的每个步骤。

图 3. 我们的算法总览

基于人体姿态关节点的旋转对齐操作(AffineAlign)

如图 3 (a) 所示,算法首先用 K-means 优化下式对训练集中的所有人体姿态进行聚类,并取每个类的聚类中心作为姿态模版构成姿态模版库。

然后对于图像中的每个人体实例的姿态输入,通过求解下式优化问题估计姿态模版与输入姿态之间的仿射变换矩阵,并选择一个对齐误差最小(score 最大)的仿射矩阵 H 作为这个输入姿态的对齐矩阵。

最后,我们用这个矩阵 H 结合仿射变换来对齐特征区域。

骨骼姿态特征图(Skeleton Features)

如图 3 (b) 所示,我们采用 OpenPose 提出的骨骼漂移场(PAFs)来表示人体姿态中不同关节点之间的连接,也就是骨骼。对于每一对关节点,PAFs 是一个 2 通道的特征图,分别表示这对关节点漂移向量在 (x, y) 方向上的分量。

此外,为了强化部位关节点的局部区域,我们还对每个部位关节点生成了一个高斯核热力图,作为骨骼姿态特征图的一部分。人体的骨骼姿态和人体的分割掩模是有高度的语义相关性的——前者可以看作是后者的中心线。

实验证明我们的骨骼姿态特征图的引入可以为分割预测提供先验知识,从而改善分割的效果。

新的数据集基准 OCHuman

OCHuman 数据集由 4731 张图像组成,其中包含 8110 个人体实例。为了量化地衡量图中的人被其他人遮挡的严重程度,我们定义 MaxIoU 为这个人的包围框与图中所有其他人包围框的最大交并比(IoU)。

OCHuman 数据集中包含的人体实例的 MaxIoU 全部都在 0.5 以上,整个数据集平均 MaxIoU 达到了 0.67,意味着平均每个人都有 67% 的面积区域被其他人所遮挡。这使 OCHuman 成为与人有关的最有挑战性的数据集。图 4 展示了这个数据集的一些样例。

图 4. 本文提出的 OCHuman 数据集,包含包围框、人体姿态关节点、以及实例分割掩模标注

表 1. 不同数据集之间的比较。OCHuman 具有更多严重遮挡的人体实例。

如表 1 所示,我们将 OCHuman 与 COCOPersons 做了对比。COCOPersons 是目前为止既包含人体分割掩模标注,又包含人体姿态关键点标注的最大的数据集。虽然 COCOPersons 有丰富的标注,但是其包含的具有严重遮挡问题的人体实例数量微乎其微。

相比之下,OCHuman 既包含丰富的标注可以支持物体检测算法、人体姿态估计算法和实例分割算法,又包含大量的具有高度挑战性的严重遮挡问题实例。

实验结果

表 2. 不同算法在遮挡情况下的表现。所有的算法都是在 COCOPersons 训练集上训练,在 OCHuman 数据集上测试的。Ours(GT Kpt) 代表我们的算法在输入为标注的人体姿态下的表现。

表 3. 不同算法在一般情况下的表现。Mask R-CNN 和我们的算法都是在 COCOPersons 训练集上训练,然后在 COCOPersons 验证集(val)上测试的(不含其中的 [Small] 类别)。PersonLab 的得分来自他们的论文。Ours(GT Kpt) 代表我们的算法在输入为标注的人体姿态下的表现。

表 4. 研究不同的对齐策略以及人体姿态骨骼特征的对比试验。实验结果分别来自于 OCHuman 验证集与 COCOPersons 验证集。实验的输入为标注的(GT)包围盒信息(BBOX)和人体姿态关节点信息(KPT)。「GT KPT to BBOX」代表从这些关节点坐标位置中找到最大和最小值来确定一个包围框,并将这个包围框向周围扩展一定的程度。标*的数值表示该结果依赖于 BBOX 和 KPT 两种输入信息,其他的结果仅依赖于其中一种。

图 5. 我们的方法与 Mask R-CNN 在具有严重遮挡问题的图片上的效果比较。为了方便可视化,我们额外地用实例分割结果生成了包围盒展示在图中。

图 6. 旋转对齐操作 AffineAlign 的更多结果。(a) AffineAlign 保留的区域对应的原图区域。(b) AffineAlign 操作之后的对齐结果与我们方法的分割结果。

论文:Pose2Seg:不依赖于包围框检测的人体实例分割框架(Pose2Seg: Detection Free Human Instance Segmentation)

  • 论文地址:https://arxiv.org/abs/1803.10683

  • 主页地址:http://www.liruilong.cn/projects/pose2seg/index.html

  • 代码地址:https://github.com/liruilong940607/Pose2Seg

  • 数据集地址:https://github.com/liruilong940607/OCHumanApi

目前主流实例物体分割方法的思路都是首先检测图像中物体的包围框,然后利用包围框区分图像中的不同物体并定位,最后用一个分割模块从这个包围框区域中分割出物体实例。

近年来也有一些方法将上述过程合二为一,形成了一个并行的实例物体分割框架,例如 Mask R-CNN。但是这些方法都严重依赖于物体的包围框检测算法。并且,很少有研究者在实例物体分割这个问题中考虑到「人」这一个类别的特殊性——不同于其他类别的物体,「人」有完备的人体骨架的定义。

对于「人」这个特殊的类别来说,利用骨架检测来定位人体实例显然比包围框有更丰富的定位信息,从而有潜力更准确地定位人体。同时,图像中人体骨架由于比包围框有更大的区分度,基于骨架检测来定位人体实例可以有效改善严重遮挡情况下的不同人体实例的区分。

本文将介绍一种全新的基于人体姿态的实例分割框架。本文中的实验表明这个方法可以比基于包围框的实例分割方法达到更高的准确度,同时可以更好地解决基于包围框的方法无法解决的严重遮挡问题。

理论实例分割姿态估计腾讯AI Lab清华大学
1
相关数据
来也机构

「来也」是国内领先的人工智能交互平台,由常春藤盟校(Ivy League)归国博士和MBA团队发起,核心技术涵盖自然语言处理(NLP)、多轮对话控制和个性化推荐系统等。公司已获得数十项专利和国家高新技术企业认证。 来也的愿景是通过AI赋能,让每个人拥有助理。C 端产品小来是智能化的在线助理,通过业内创新的AI+Hi模式,提供日程、打车、咖啡、差旅和个性化查询等三十余项技能(覆盖400w用户和数十万服务者),让用户用自然语言发起需求并得到高效的满足。B端品牌吾来输出知识型的交互机器人和智能客户沟通系统,帮助各领域企业客户打造行业助理。目前已经在母婴,商旅,金融和汽车等行业的标杆企业实现商业化落地。

https://www.laiye.com/
图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

YOLO技术

YOLO 模型最早是由 Joseph Redmon 等人在 2015 年发布的,并在随后的两篇论文中进行了修订。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

数据集成技术

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

仿射变换技术

仿射变换,又称仿射映射,是指在几何中,一个向量空间进行一次线性变换并接上一个平移,变换为另一个向量空间。 一个对向量平移,与旋转放大缩小的仿射映射为 上式在齐次坐标上,等价于下面的式子 在分形的研究里,收缩平移仿射映射可以制造制具有自相似性的分形

推荐文章
暂无评论
暂无评论~