Soubhik Sanyal等作者Haven Fung编译

CVPR 2019 | 德国马普所提出端到端模型RingNet,基于单张图像进行3D人脸重建

计算机视觉领域顶级会议 CVPR 于 6 月 16 日-20 日在美国加州长滩举行。CVPR 2019 共收到 5165 篇有效提交论文,相比去年增加了 56%;接收论文 1300 篇,接收率接近 25.2%。

据机器之心了解,德国马克思·普朗克研究所共有 16 篇论文入选 CVPR 2019,本文简要介绍了其中一篇。该研究提出一个端到端神经网络 RingNet,可基于单张图像进行三维人脸重建。

在这项工作中,我们提出了端到端神经网络 RingNet,用来学习基于单张照片的三维面部重建,这项任务必须同时对光照、头部姿势、表情、面部毛发、化妆和遮挡的变化具有鲁棒性。而实现这种鲁棒性需要大量的 in-the-wild 图片,然而这些图片往往缺乏用于监督的真实三维面部数据。

为了在没有任何 2D 到 3D 监督的情况下训练神经网络,我们提出了 RingNet,它学习基于单个图像计算 3D 面部形状。我们的关键发现是同一个人的三维面部形状总是恒定的,无论其不同图片中表情、姿势、光线等条件如何变化。所以 RingNet 利用了同一个人的多张图片并自动检测其 2D 脸部特征。它使用一种全新的形状一致性损失函数,对于同一个人鼓励三维面部形状相似,不同的人则反之。我们使用 FLAME 模型(参数化面部模型)来表征三维面部结构以实现对不同表情的解离。在推理阶段,我们的方法可以在输入单个图片后直接输出 FLAME 的参数,这些参数可直接用于动画生成。此外,我们还创建了一个全新的基准数据集「not quite in-the-wild」(NoW),其中包含对于每个实验对象的三维头部扫描数据和在大量不同条件下的高清图片。在评估了公开可用的方法后,我们发现 RingNet 比其他使用三维数据监督的方法更加准确。数据集、模型和结果已经开放并可用于研究目的。

地址:https://ringnet.is.tue.mpg.de/

RingNet 在训练过程中使用人物 A 的多张图像和人物 B 的一张图像作为输入,然后识别出相同人物图像之间的形状一致性和不同人物图像之间的形状不一致性。

研究贡献

这是第一个仅通过单张面部图像进行全脸、头部与颈部重建的工作; 

提出了端到端的神经网络 RingNet,可在不同视角、光线条件、分辨率和遮挡的情况下,在面部区域上实现形状一致性;

全新的形状一致性损失函数

NoW,一个用于定性和定量评估 3D 面部重建方法的基准数据集;

数据集、模型和结果已经开放并可用于研究目的,以鼓励定量比较。

对于学界:

虽然在这个工作中我们仅将 RingNet 用于面部数据,但这个想法本身具有普适性,可以用于其他三维重建任务。鉴于目前这个领域缺乏统一的定量反馈,我们引入了三维面部重建基准挑战 NoW 以及标准化评估指标,并邀请该领域的其他研究人员一起参与我们的挑战,超越单纯的视觉比较。

对于工业界:

由于我们的模型可以基于单个图像重建包括颈部和整个头部的三维数据,因此它可被用于动画行业或大量 face app,大家可以访问我们的 GitHub 页面,并通过结合 RingNet 和 VOCA 项目来制作一些有趣的 app。例如,可以先用 RingNet 创建基于照片的三维面部模板,再用 VOCA 来生成基于音频的动画。

局限性

仅依赖 2D landmark 会在一定程度上限制三维重建的质量,采用密集关联性则会显著提高质量。

关于 Challenge NoW 的更多细节

基准的目标是给 3D 面部重建领域引入标准评估度量,以测量其在视角、光照和常见遮挡变化下的准确性和鲁棒性。

为了应对挑战,我们引入了 NoW 数据集。该数据集目前包含 100 个被试的 2054 张照片,均使用 iPhone X 拍摄,并为每个被试单独进行了 3D 头部扫描。头部扫描将作为评估的真值数据。在选取被试时,我们考虑了年龄、BMI 及性别分布(55 名女性、45 名男性)。

图片

我们将获取的数据分为四个类别:自然面容(620 图像)、表情面容(675 图像)、面部遮挡(528 图像)以及自拍(231 图像)。前三类包含所有对象在多视角情况下的自然表情和部分遮挡的面部照片,视角范围从正面视图到侧面视图。表情面容包含不同的表情,如快乐、悲伤、惊讶、厌恶和恐惧。面部遮挡则包含不同种类的遮挡,如眼镜、太阳镜、面部毛发、帽子或头巾。对于自拍类别,我们要求被试使用 iPhone 前置摄像头自拍,并不对其面部表情加以约束。室内和室外拍摄的照片可提供自然光和人造光的变化。我们在「Download」页面中提供面部区域的裁剪信息。

扫描

对于每个被试,我们使用主动式立体扫描系统(3dMD LLC,Atlanta)来获取自然面容条件下的三维头部数据。这套多相机系统包括六个灰度立体相机对、六个彩色相机、五个散斑图案投影仪和六个白色 LED 面板。重建后,每个被试的三维几何体包含大约 120K 顶点。在扫描期间被试会佩戴头发帽以避免头发在面部或颈部区域中的遮挡以及扫描噪声。

所有类别的挑战是在给定单个单眼图像的情况下重建自然面容条件下的三维面部结构。值得注意的是,由于面部表情存在于若干图片中,所以参加挑战的方法需要具有对表情解离的能力。关于挑战的全部内容,参见https://ringnet.is.tue.mpg.de/challenge。


论文:Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision

作者:Soubhik Sanyal、Timo Bolkart、Haiwen Feng、Michael J. Black
论文链接:https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/509/paper_camera_ready.pdf
项目页面:https://ringnet.is.tue.mpg.de/
GitHub页面:https://github.com/soubhiksanyal/RingNet

理论计算机视觉3D建模CVPRCVPR 2019
2
相关数据
图像重建技术

通过物体外部测量的数据,经数字处理获得三维物体的形状信息的技术。图像重建技术开始是在放射医疗设备中应用,显示人体各部分的图像,即计算机断层摄影技术,简称CT技术,后逐渐在许多领域获得应用。主要有投影重建、明暗恢复形状、立体视觉重建和激光测距重建。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

推荐文章
暂无评论
暂无评论~