刘晓坤 思源参与

实时评估世界杯球员的正确姿势:FAIR今日开源DensePose

今天,Facebook AI 研究院(FAIR)开源了 DensePose,这是一个能将人体所有像素的 2D RGB 图像实时映射到 3D 人体模型的应用。这一模型利用 COCO 数据集中 50K 张密集型人体对应关系的标注,并在有遮挡和尺度变换等自然情况下能准确实现密集型人体姿态估计。

项目地址:http://densepose.org/ 

DensePose 应用演示。

左图:输入;中图:对应的 DensePose-RCNN 结果;右图:人体分割和 UV 参数化。

近期在人类理解上的研究聚焦于对稀疏的关节集合进行定位,例如手腕、手肘等。这也许对于手势或动作识别的应用是足够的,但它输出的其实是缩减的图像解释,我们希望更进一步解释人体姿态的更多信息。想象一下通过照片来试穿新衣服,或给你照片中的朋友穿上衣服等。对于这些任务,我们需要更复杂的基于表面的图像解释。

DensePose 项目解决了这个问题,并旨在以基于表面的模型来理解图像中的人物。我们的研究表明用 DensePose 可以高效地计算人体的 2D RGB 图像和 3D 表面模型之间的密集对应关系。和通常对 10 个或 20 个关节(手腕、手肘等)进行人体姿态估计的研究不同,该研究考虑的是整个人体,定义了超过 5000 个节点。最终获得的系统速度和准确率加速了和增强现实以及虚拟现实计算机视觉之间的连接。

早期在这个问题上的研究需要分钟级的计算时间来通过外部系统初始化(例如在人体关节定位中),而且很脆弱。DensePose 可以在单块 GPU 上每秒处理多帧图像,并能同时对几十甚至几百人进行计算。

在这项研究中,我们引入了 DensePose-COCO,这是一个大规模对 COCO 数据集的 5 万个人图像到表面对应关系进行手工标注的真值数据集。其真值是以图像到表面的形式在随机采样的人体位置上标注得到,还包括分割的人体部分。我们是按照 COCO 挑战赛的训练/验证/测试集的划分方式进行划分的。

DensePose-COCO 标注:给定一张 RGB 图像,对每个人以 UV 坐标分配多个像素点。

DensePose-COCO 标注:我们在 3D 表面上对每个人分配多个不同位置的像素点。

我们还为该任务开发了新的深度网络架构。我们将架构建立在 FAIR 的 Detectron 系统上,并将其整合了密集姿态估计的功能。正如在 Detectron 的 Mask-RCNN 系统中,我们使用的也是兴趣区域(RoI)池化然后是全卷积处理。我们用三个输出通道来增强网络,通过训练来输出对人体部分和和 UV 坐标的像素分配。最终得到的架构达到了和 Mask-RCNN 一样的有效速度,这多亏了 Caffe2 框架。

DensePose-RCNN 架构:我们使用级联的候选区域生成与特征池化,并跟着一个全卷积网络以预测密集型离散部位标注和连续型表面坐标。

我们开源 DensePose 的目的是希望分享 FAIR 的研究方向,并尽可能开放研究成果。FAIR 希望 DensePose 能够将计算机视觉增强现实和计算机图形学的研究者与开发者结合在一起,并且很快产生新的经验,无论是创建全身过滤器还是从手机学习新的舞蹈。

DensePose 目前在 GitHub 上已经可以访问了,FAIR 还为 DensePose-COCO 发布了多个预训练模型与标注信息。

GitHub 项目地址:https://github.com/facebookresearch/DensePose

论文:DensePose: Dense Human Pose Estimation In The Wild

论文地址:https://arxiv.org/abs/1802.00434

摘要:在这项工作中,我们建立了 RGB 图像与基于人类身体表面表征之间的密集型对应关系,我们称这种任务为密集型人体姿态估计。我们首先引入高效的标注流程,并对 COCO 数据集中出现的 50K 个人体的图像进行密集型对应关系标注。然后使用我们的数据集训练基于 CNN 的系统,因此该系统能在「自然环境下」提供密集型的对应关系,其中自然环境表示可能存在背景、遮挡和尺度变化等。我们通过训练一个能填补缺失标注值的「修复」网络以提升训练集的有效性,并且该网络相对于过去能实现的最佳结果有显著的提升。我们实验了全卷积网络和基于区域的模型,并观察到后者更有优越性;我们通过级联进一步提升了准确度,且获得了能获得实时高准确度的系统。项目页面中提供了补充材料与视频:http://densepose.org/


原文链接:https://research.fb.com/facebook-open-sources-densepose/

工程FacebookDensePose开源
2
相关数据
增强现实技术
Augmented reality

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术
Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

池化技术
Pooling

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

虚拟现实技术
Virtual reality

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

机器之心
机器之心

机器之心编辑

推荐文章
返回顶部