ECCV2020 | 商汤联合浙大提出多人场景人体绝对三维姿态估计新方法

【导读】由单帧彩色图像恢复多人的三维姿态和人相对于相机位置是一个具有挑战性的任务,因为图像在拍摄过程中损失了深度和尺度信息。在 ECCV2020 上,商汤与浙大联合实验室提出了单步多人绝对三维姿态估计网络和 2.5D 人体姿态表示方法,并且基于所提出的深度已知的关键点匹配算法,得到绝对三维人体姿态。该方法结合图像的全局特征和局部特征,能获得准确的人体前后关系和人与相机的距离,在 CMU Panoptic 和 MuPoTS-3D 多人三维人体姿态估计数据集上均达到 SOTA(state-of-the-art),并且在未见过的场景中具有很好的泛化能力。

论文名称:SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation

1、动机

基于单帧图像的人体绝对三维姿态估计在混合现实、视频分析、人机交互等领域有很广泛的应用。近几年研究人员多将注意力集中于人体的相对三维姿态估计(人体关键点相对于根节点的三维位置)任务上,并且取得了不错的成果。但是对于多人场景下人体绝对三维姿态估计任务,除了要估计相对人体三维姿态,更重要的是估计人相对于相机的绝对位置。

当前大多数方法对检测到的人体区域进行裁剪后,分别估计绝对位置。有的方法利用检测框的大小作为人体尺寸的先验,通过网络回归深度信息,但是这样的方法忽略了图像的全局信息;另外一些方法基于一些假设,通过后处理的手段估计人体深度,如地面约束,但是这样的方法依赖于姿态估计的准确度,而且很多假设在实际场景中无法满足(比如人脚不可见)。

文章认为要准确地估计人的绝对三维位置需要利用图像中所有与深度相关的信息,比如人体尺寸、前后遮挡关系、人在场景中的位置等。近年来有很多工作利用卷积神经网络回归全图的深度信息,这带来了启发——使用网络直接估计场景中所有人的深度信息,而不是在后处理过程中恢复深度。

综上,文章提出了新的单步自底向上的方法估计多人场景的人体绝对三维姿态,它可以在一次网络推理后得到所有人的绝对位置信息和三维姿态信息。另外,文章还提出了基于深度信息的人体关键点匹配算法,包括深度优先匹配和自适应骨长约束,进一步优化关键点的匹配结果。

2、方法介绍

上图展示了所提出方法的流程,包括 SMAP 网络,基于深度的关键点匹配(Depth-Aware Part Association), 和可选的微型优化网络(RefineNet)。输入一张彩色图像,SMAP 网络同时输出人体根节点深度图(Root Depth Map)、二维关键点热度图(Heatmaps)、关键点连接向量场(PAFs)和骨骼相对深度图(Part Relative-Depth Maps)。基于以上的 2.5D 特征表示方法,进行关键点匹配,然后利用相机模型得到人体绝对三维关键点坐标。最后,可以使用微型优化网络对结果进行补全和优化。

2.1 2.5D特征表示方式

2.1.1 人体根节点深度图(Root Depth Map)

由于图像中人体数目是未知的,文章提出了人体根节点深度图来表示场景中人的绝对深度,根节点深度图中,每个人根节点(如脖子或骨盆)位置的值表示其根节点的绝对深度,在训练时,只对根节点位置进行监督。其优势在于,不受图中人数限制,并且只需要三维人体姿态数据便可以训练,而不需要整张图的深度信息。

对于同一个深度下的同一个人,具有不同内参(FoV, field of view)的相机会得到不同的二维图像,这对建立二维信息(如人体尺寸)和绝对深度之间的映射关系是不利的,所以需要对输入网络的深度利用 FoV 进行归一化:

在推理阶段,利用对应相机的 FoV 即可恢复人体绝对深度;即使不知道相机的 FoV,也可以利用合理的默认值恢复得到人体深度,而且网络估计的每个人之间的深度关系不会改变。

2.1.2 Heatmaps 和 PAFs

对于二维信息,采用与 OpenPose 相同的表示方式。关键点热度图(Heatmaps)表示关键点位于某个像素的概率,关键点连接向量场(PAFs)表示关键点之间相连的方向和概率。

2.1.3 骨骼相对深度图(Part Relative-Depth Maps)
骨骼相对深度图生成方式与 PAFs 相同,区别在于它的值表示的是相邻关键点之间的相对深度。

2.2 基于深度的关键点匹配算法

由关键点热度图(Heatmap)得到人体根节点位置后,便可以从根节点深度图(Root DepthMap)中读取每个人的深度信息,文章利用深度信息进一步优化人体关键点匹配算法,以解决二维关键点匹配算法中存在的歧义性问题。

如图第一行所示,当两个人存在遮挡时,如果同一个关键点有所重叠,单纯基于二维信息的匹配方式无法确定该关键点的所属关系,有可能导致大部分关键点的错连,如第三列所示。而重叠的关键点在绝大多数场景中应该属于前一个人,所以基于网络推断的深度信息,给予靠近相机的人更大的连接优先级,如第四列所示。

另外,文章还提出了自适应骨长距离约束。在二维匹配算法中,一般设置图像宽度的一半为关键点匹配的距离约束,但是由于人与相机距离不同,在二维图像中呈现的尺寸不同,固定的约束无法起到很好的效果,如图中第二行第三列所示。对于每个骨骼,使用训练集中的平均长度作为其实际长度,然后利用网络输出的深度计算其在二维图像中的最大长度如下:

2.3 绝对三维姿态恢复


由基于深度的匹配算法获得人体关键点匹配结果后,可以由根节点绝对深度和骨骼相对深度得到每一个关键点的绝对深度,然后利用如下公式

反投影得到人体关键点绝对三维坐标。其中K是相机内参矩阵,在绝大部分应用中都是已知的,如果未知,可以使用估计值。

由上述步骤恢复的结果可能会引入两种误差:由于骨架是以级联的方式表示的,在恢复末端关节点深度时,会有累计误差;另外,严重的遮挡和图像截断会导致人体某些关键点的缺失。对此,文章提出了微型补全网络 RefineNet,输入估计的相对二维和三维关键点坐标,输出优化和补全后的相对三维关键点坐标。RefinNet 并不会对人体根节点绝对深度进行优化。

3、实验结果

文章提出的方法在 CMU Panoptic 和 MuPoTS-3D 多人三维人体姿态估计数据集上均达到 SOTA。

另外,文章对不同可选的深度估计方法进行了对比。第一种,回归全图的深度[1],如图第一列;第二种,根据检测框的尺寸回归人体深度[2],如图第二列。散点图的横坐标为人体深度估计值,纵坐标为实际值,散点越靠近 x=y 直线说明回归的深度越准确。可以看出,文章提出的方法(Root Depth Map)具有更好的深度一致性和泛化能力。

为了体现单步自底向上网络相对于自顶向下网络[2]的优势,进行了定性分析。图中左边为自顶向下网络的结果,可见自顶向下的方法会受到姿态变化、人体遮挡、人体截断的影响,而文章提出的自底向上的方法可以利用全局信息缓解这个问题。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论姿态估计ECCV2020
相关数据
卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

人体姿态估计技术

人体姿态估计是计算机视觉领域的一个重要问题,主要用于跟踪一个人的每一个小动作并实时进行生物力学分析。

图生成技术

根据给定信息信息生成图表。

暂无评论
暂无评论~