Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

3D 人脸重建是一项广泛应用于游戏影视制作、数字人、AR/VR、人脸识别和编辑等领域的关键技术,其目标是从单张或多张图像中获取高质量的 3D 人脸模型。借助摄影棚中的复杂拍摄系统,当前业界成熟方案已可得到媲美真人的毛孔级精度的重建效果 [2],但其制作成本高、周期长,一般仅用于 S 级影视或游戏项目。

近年,基于低成本人脸重建技术的交互玩法(如游戏角色捏脸玩法、AR/VR 虚拟形象生成等)受到市场欢迎。用户只需输入日常可获取的图片,如手机拍摄的单张或多张图片,即可快速得到 3D 模型。但现有方法成像质量不可控,重建结果精度较低,无法表达人脸细节 [3-4]。如何在低成本条件下得到高保真 3D 人脸,仍是一个未解的难题。

人脸重建的第一步是定义人脸表达方式,但现有主流的人脸参数化模型表达能力有限,即使有更多约束信息,如多视角图片,重建精度也难以提升。因此,腾讯 AI Lab 提出了一种改进的自适应骨骼 - 蒙皮模型(Adaptive Skinning Model,以下简称 ASM)作为参数化人脸模型使用,利用人脸先验,以高斯混合模型来表达人脸蒙皮权重,极大降低参数量使其可自动求解。

测试表明,ASM 方法在不需要训练的前提下仅使用少量的参数,即显著提升了人脸的表达能力及多视角人脸重建精度,创新了 SOTA 水平。相关论文已被 ICCV-2023 接收,以下为论文详细解读。

论文题目:ASM: Adaptive Skinning Model for High-Quality 3D Face Modeling

图片

论文链接:https://arxiv.org/pdf/2304.09423.pdf

研究挑战:低成本、高精度的 3D 人脸重建难题

从 2D 图像得到信息量更大的 3D 模型,属于欠定问题存在无穷多解。为了使其可解,研究者将人脸先验引入重建,降低求解难度的同时能以更少的参数来表达人脸 3D 形状,即参数化人脸模型。当前大部分参数化人脸模型都是基于 3D Morphable Model (3DMM) 及其改进版,3DMM 是 Blanz 和 Vetter 在 1999 年首次提出的参数化人脸模型 [5]。文章假设一张人脸可以通过多个不同的人脸线性或非线性组合得到,通过收集数百个真实人脸的高精度 3D 模型构建人脸基底库,进而组合参数化人脸来表达新的人脸模型。后续研究通过收集更多样的真实人脸模型 [6, 7],以及改进降维方法来优化 3DMM [8, 9]。

然而,3DMM 类人脸模型的鲁棒性高但表达能力不足。尽管他能够在输入图像模糊或有遮挡的情况下稳定地生成精度一般的人脸模型,但当使用多张高质量图像作为输入时,3DMM 表达能力有限,不能利用上更多的输入信息,因此限制了重建精度。这种限制源于两方面,一是方法本身的局限性,二是该方法依赖于人脸模型数据的收集,不仅数据获取成本高,且因人脸数据的敏感性,在实际应用中也难以广泛复用。

ASM 方法:重新设计骨骼 - 蒙皮模型

为了解决现有 3DMM 人脸模型表达能力不足的问题,本文引入了游戏业界常用的 “骨骼 - 蒙皮模型” 作为基准人脸表达方式。骨骼 - 蒙皮模型是游戏与动画制作过程中表达游戏人物角色脸型与表情的一种常见的人脸建模方式。它通过虚拟的骨骼点与人脸上的 Mesh 顶点相连,由蒙皮权重决定骨骼对 Mesh 顶点的影响权重,使用时只需要控制骨骼的运动即可间接控制 Mesh 顶点的运动。

通常情况下,骨骼 - 蒙皮模型需要动画师进行精确的骨骼放置与蒙皮权重绘制,具有高制作门槛与长制作周期的特点。但是现实的人脸中不同的人骨骼与肌肉的形状具有较大差异,一套固定的骨骼 - 蒙皮系统难以表达现实中多种多样的脸型,为此,本文在现有的骨骼 - 蒙皮基础上进行进一步设计,提出了自适应骨骼 - 蒙皮模型 ASM,基于高斯混合蒙皮权重(GMM Skinning Weights)与动态骨骼绑定系统(Dynamic Bone Binding)进一步提高了骨骼 - 蒙皮的表达能力与灵活度,为每一个目标人脸自适应生成独有的骨骼 - 蒙皮模型,以表达更为丰富的人脸细节

为了提高骨骼 - 蒙皮模型对于建模不同人脸时的表达能力,ASM 对骨骼 - 蒙皮模型的建模方式进行了全新的设计。

图片

                                  图 1:ASM 整体框架

骨骼 - 蒙皮系统通常基于线性混合蒙皮(Linear Blend Skinning, LBS)算法,通过控制骨骼的运动(旋转、平移、缩放)来控制 Mesh 顶点的变形。传统的骨骼 - 蒙皮包含两个部分,即蒙皮权重矩阵与骨骼绑定,ASM 对这两部分分别进行了参数化,以实现自适应的骨骼 - 蒙皮模型。接下来会分别介绍蒙皮权重矩阵与骨骼绑定的参数化建模方法。

图片

                                公式 1:传统骨骼 - 蒙皮模型的 LBS 公式

图片

                               公式 2:ASM 的 LBS 公式

高斯混合蒙皮权重(GMM Skinning Weights)

蒙皮权重矩阵是一个 mxn 维的矩阵,其中 m 为骨骼数量,n 为 Mesh 上的顶点数量,该矩阵用于存放每一根骨骼对每一个 Mesh 顶点的影响系数。一般来说蒙皮权重矩阵是高度稀疏的,例如在 Unity 中,每个 Mesh 顶点只会被最多 4 根骨骼影响,除了这 4 根骨骼外,其余骨骼对该顶点的影响系数为 0。传统的骨骼 - 蒙皮模型中蒙皮权重由动画师绘制得到,并且蒙皮权重一旦得到,在使用时将不再发生改变。近年来有工作 [1] 尝试结合大量数据与神经网络学习如何自动生成蒙皮权重,但这样的方案有两个问题,一是训练神经网络需要较大量的数据,如果是 3D 人脸或者蒙皮权重的数据则更难获得;二是使用神经网络建模蒙皮权重存在较为严重的参数冗余。是否存在一种蒙皮权重的建模方式,在不需要训练的前提下使用少量的参数即可完整表达整张人脸的蒙皮权重呢?

通过观察常见的蒙皮权重可发现以下性质:1. 蒙皮权重局部光滑;2. 离当前骨骼位置越远的 Mesh 顶点,对应的蒙皮系数通常也越小;而这样的性质与高斯混合模型(GMM)非常吻合。于是本文提出了高斯混合蒙皮权重(GMM Skinning Weights)将蒙皮权重矩阵建模为基于顶点与骨骼某个距离函数的高斯混合函数,这样就能使用一组 GMM 系数表达特定骨骼的蒙皮权重分布。为了进一步压缩蒙皮权重参数量,我们将整个人脸 Mesh 从三维空间转移到 UV 空间,从而只需要使用二维 GMM 并且使用顶点到骨骼的 UV 距离就能计算出当前骨骼对特定顶点的蒙皮权重系数。

动态骨骼绑定(Dynamic Bone Binding)

对蒙皮权重进行参数化建模不仅使我们能用少量参数表达蒙皮权重矩阵,还使我们在运行时(Run-Time)调整骨骼绑定位置成为了可能,由此,本文提出了动态骨骼绑定(Dynamic Bone Binding)的方法。与蒙皮权重相同,本文将骨骼的绑定位置建模为 UV 空间上的一个坐标点,并且能够在 UV 空间中任意移动。对于人脸 Mesh 的顶点,能够通过很简单地通过预定义好的 UV 映射关系将顶点映射为 UV 空间上的一个固定坐标。但是骨骼并没有预先定义在 UV 空间中,为此我们需要将绑定的骨骼从三维空间转移到 UV 空间上。本文中这个步骤通过对骨骼与周围顶点进行坐标插值实现,我们将计算得到的插值系数应用在顶点的 UV 坐标上,就能获得骨骼的 UV 坐标。反过来也一样,当需要将骨骼坐标从 UV 空间转移到三维空间时,我们同样计算当前骨骼的 UV 坐标与临近顶点的 UV 坐标的插值系数,并将该插值系数应用到三维空间中同样的顶点三维坐标上,即可插值出对应骨骼的三维空间坐标。

通过这种建模方式,我们将骨骼的绑定位置与蒙皮权重系数都统一为了 UV 空间中的一组系数。当使用 ASM 时,我们将人脸 Mesh 顶点的形变转变为求解 UV 空间中骨骼绑定位置的偏移系数、UV 空间中的高斯混合蒙皮系数与骨骼运动系数三者的组合,极大地提高了骨骼 - 蒙皮模型的表达能力,实现更为丰富的人脸细节的生成

图片

                                   表 1:ASM 每根骨骼的参数维度

研究结果:人脸表达能力与多视角重建精度达到 SOTA 水平

对比不同参数化人脸模型的表达能力

我们使用参数化人脸模型注册高精度人脸扫描模型的方式(Registration),将 ASM 与传统的基于 PCA 方法的 3DMM(BFM [6],FLAME [7],FaceScape [10])、基于神经网络降维方法的 3DMM(CoMA [8], ImFace [9])以及业界前沿的骨骼 - 蒙皮模型(MetaHuman)进行了对比。结果指出,ASM 在 LYHM 与 FaceScape 两个数据集上的表达能力均达到了 SOTA 水平。

图片

                                       表 2:LYHM 与 FaceScape 的 registration 精度

图片

                                        图 2:LYHM 与 FaceScape 上 registration 精度的误差分布

图片

                                   图 3:LYHM 与 FaceScape 上 registration 的可视化结果与误差热力图

多视角人脸重建中的应用

我们使用了 Florence MICC 的数据集测试了 ASM 在多视角人脸重建任务上的表现,在 Coop(室内近距离摄像头,人物无表情)测试集上的重建精度达到了 SOTA 水平。

图片

                                     图 4:Florence MICC 数据集上的 3D 人脸重建结果

我们还在 FaceScape 数据集上测试了多视角重建任务中图片数量对重建结果的影响,结果可以看到当图片数量在 5 张左右时 ASM 相比其他的人脸表达方式能够实现最高的重建精度。

图片

                                    表 3:FaceScape 上不同输入数量的多视角重建结果精度

图片

                                        图 5:FaceScape 上不同输入数量的多视角重建可视化结果与误差热力图

总结及展望

在低成本条件下获得高保真人脸这一行业难题上,本研究迈出了重要一步。我们提出的新参数化人脸模型显著增强了人脸表达能力,将多视角人脸重建的精度上限提升到了新的高度。该方法可用于游戏制作中的 3D 角色建模、自动捏脸玩法,以及 AR/VR 中的虚拟形象生成等众多领域。

在人脸表达能力得到显著提升之后,如何从多视角图片中构建更强的一致性约束,以进一步提高重建结果的精度,成为了当前人脸重建领域的新瓶颈、新挑战。这也将是我们未来的研究方向。

参考文献

[1] Noranart Vesdapunt, Mitch Rundle, HsiangTao Wu, and Baoyuan Wang. Jnr: Joint-based neural rig representation for compact 3d face modeling. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII 16, pages 389–405. Springer, 2020.

[2] Thabo Beeler, Bernd Bickel, Paul Beardsley, Bob Sumner, and Markus Gross. High-quality single-shot capture of facial geometry. In ACM SIGGRAPH 2010 papers, pages 1–9. 2010.

[3] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, Yunde Jia, and Xin Tong. Accurate 3d face reconstruction with weakly-supervised learning: From single image to image set. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, pages 0–0, 2019.

[4] Yao Feng, Haiwen Feng, Michael J Black, and Timo Bolkart. Learning an animatable detailed 3d face model from in-the-wild images. ACM Transactions on Graphics (ToG), 40 (4):1–13, 2021.

[5] Volker Blanz and Thomas Vetter. A morphable model for the synthesis of 3d faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques, pages 187–194, 1999.

[6] Pascal Paysan, Reinhard Knothe, Brian Amberg, Sami Romdhani, and Thomas Vetter. A 3d face model for pose and illumination invariant face recognition. In 2009 sixth IEEE international conference on advanced video and signal based surveillance, pages 296–301. Ieee, 2009.

[7] Tianye Li, Timo Bolkart, Michael J Black, Hao Li, and Javier Romero. Learning a model of facial shape and expression from 4d scans. ACM Trans. Graph., 36 (6):194–1, 2017.

[8] Anurag Ranjan, Timo Bolkart, Soubhik Sanyal, and Michael J Black. Generating 3d faces using convolutional mesh autoencoders. In Proceedings of the European conference on computer vision (ECCV), pages 704–720, 2018.

[9] Mingwu Zheng, Hongyu Yang, Di Huang, and Liming Chen. Imface: A nonlinear 3d morphable face model with implicit neural representations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 20343–20352, 2022.

[10] Haotian Yang, Hao Zhu, Yanru Wang, Mingkai Huang, Qiu Shen, Ruigang Yang, and Xun Cao. Facescape: a large-scale high quality 3d face dataset and detailed riggable 3d face prediction. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 601–610, 2020.

工程ASMICCV-20233D 人脸重建
相关数据
Anurag Ranjan人物

马克斯普朗克智能系统研究所博士。研究领域:感知系统。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

高斯混合模型技术

高斯混合模型(Gaussian Mixture Model,GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
暂无评论
暂无评论~