论文名称:SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation
1、动机
基于单帧图像的人体绝对三维姿态估计在混合现实、视频分析、人机交互等领域有很广泛的应用。近几年研究人员多将注意力集中于人体的相对三维姿态估计(人体关键点相对于根节点的三维位置)任务上,并且取得了不错的成果。但是对于多人场景下人体绝对三维姿态估计任务,除了要估计相对人体三维姿态,更重要的是估计人相对于相机的绝对位置。
2、方法介绍
上图展示了所提出方法的流程,包括 SMAP 网络,基于深度的关键点匹配(Depth-Aware Part Association), 和可选的微型优化网络(RefineNet)。输入一张彩色图像,SMAP 网络同时输出人体根节点深度图(Root Depth Map)、二维关键点热度图(Heatmaps)、关键点连接向量场(PAFs)和骨骼相对深度图(Part Relative-Depth Maps)。基于以上的 2.5D 特征表示方法,进行关键点匹配,然后利用相机模型得到人体绝对三维关键点坐标。最后,可以使用微型优化网络对结果进行补全和优化。
2.1 2.5D特征表示方式
2.1.1 人体根节点深度图(Root Depth Map)
2.1.2 Heatmaps 和 PAFs
对于二维信息,采用与 OpenPose 相同的表示方式。关键点热度图(Heatmaps)表示关键点位于某个像素的概率,关键点连接向量场(PAFs)表示关键点之间相连的方向和概率。
2.1.3 骨骼相对深度图(Part Relative-Depth Maps)骨骼相对深度图生成方式与 PAFs 相同,区别在于它的值表示的是相邻关键点之间的相对深度。
2.2 基于深度的关键点匹配算法
由关键点热度图(Heatmap)得到人体根节点位置后,便可以从根节点深度图(Root DepthMap)中读取每个人的深度信息,文章利用深度信息进一步优化人体关键点匹配算法,以解决二维关键点匹配算法中存在的歧义性问题。
如图第一行所示,当两个人存在遮挡时,如果同一个关键点有所重叠,单纯基于二维信息的匹配方式无法确定该关键点的所属关系,有可能导致大部分关键点的错连,如第三列所示。而重叠的关键点在绝大多数场景中应该属于前一个人,所以基于网络推断的深度信息,给予靠近相机的人更大的连接优先级,如第四列所示。
另外,文章还提出了自适应骨长距离约束。在二维匹配算法中,一般设置图像宽度的一半为关键点匹配的距离约束,但是由于人与相机距离不同,在二维图像中呈现的尺寸不同,固定的约束无法起到很好的效果,如图中第二行第三列所示。对于每个骨骼,使用训练集中的平均长度作为其实际长度,然后利用网络输出的深度计算其在二维图像中的最大长度如下:2.3 绝对三维姿态恢复
由基于深度的匹配算法获得人体关键点匹配结果后,可以由根节点绝对深度和骨骼相对深度得到每一个关键点的绝对深度,然后利用如下公式
由上述步骤恢复的结果可能会引入两种误差:由于骨架是以级联的方式表示的,在恢复末端关节点深度时,会有累计误差;另外,严重的遮挡和图像截断会导致人体某些关键点的缺失。对此,文章提出了微型补全网络 RefineNet,输入估计的相对二维和三维关键点坐标,输出优化和补全后的相对三维关键点坐标。RefinNet 并不会对人体根节点绝对深度进行优化。
3、实验结果
另外,文章对不同可选的深度估计方法进行了对比。第一种,回归全图的深度[1],如图第一列;第二种,根据检测框的尺寸回归人体深度[2],如图第二列。散点图的横坐标为人体深度估计值,纵坐标为实际值,散点越靠近 x=y 直线说明回归的深度越准确。可以看出,文章提出的方法(Root Depth Map)具有更好的深度一致性和泛化能力。