FACEGOOD推出10万点人脸关键点跟踪,重新定义工业级人脸3D重建

目前无论是学术界还是工业界对人脸的研究有两个方向,其一民用级,通过技术泛化为用户提供低精的产品,这些技术在工业级高精度上是无法满足需要的,主要因为算法泛化丢失了人脸的高频信息。其二工业级,从人脸生物力学仿真层面,持续提高精度,FACEGOOD 走在这个方向,在技术适当泛化的基础上,其将人脸关键点跟踪推向了极致,目前已将精度推到 10 万级,该技术可用于工业级换脸、表情捕捉等场合。

简介

人脸关键点检测在安防、金融、娱乐等领域具有广泛的应用,可以说已经成为非常基础的算法,我们先来回顾一下它的发展历史,Tim Cootes & Chris Taylor 在 1995 提出了一种新的方法(Active Shape Model)开创了人脸关键点对齐的先河,ASM 引入了统计模型来解决对齐问题,紧接着三年之后,他俩在此基础上发展出了 Active Appreance Model,这个方法有很重的历史地位,要知道当时人脸对齐问题是个很棘手的事,传统的 CV 算法太粗暴,难以应付人脸这种高纬特征,AAM 之后算是进入了一个正确的方向,为后来神经网络方法奠定了基础,基本思想是 ASM 并没有考虑到纹理特征,只是对 landmark 训练了一个统计模型出来,AAM 进一步优化了 ASM,在回归的过程中加入了纹理特征,这样就解决了特征的泛化匹配的问题,使得人脸对齐更加鲁棒。20 年之后,在众多研究者不断推动下 2D 人脸对齐问题已经彻底解决了,算法也已经白菜化,随便在 github 都有大量的精度不错的开源项目。

与此同时,在 1998 年有两位研究人员又开辟了一条新赛道,他们提出了 3D 对齐算法,将人脸对齐推向了一个全新的维度,这套方法目前已经成为现在工业界主流的算法流程,现在工业界习惯上把它叫做 3DMM,虽然并不严谨,但我们姑且沿用这样一个定义,3DMM 计算结果是在人脸上拟合并投影出一个 3D 点云,它的应用就非常丰富了,美颜、表情捕捉、通过照片生成一张人脸等等都用了类似的技术。

公式 1。

如上图所示基本思想是:一张脸可以由多个不同的人脸通过线性组合得出,换句话说,给出一张人脸,要得出 3D 模型,就是一个系数的回归问题,了解 AAM 的同学一眼就看出来这个公式就是 AAM 公式,也可以说这是 AAM 的另一种应用,其中 S 是平均脸,s 是特征向量,ai 是权重系数。Tmodel 是用来拟合人脸纹理,同样使用线性组合得出。3DMM 是一个非常初期的 idea,他的计算结果并不理想,现在来看只能算玩具级,主要是 PCA 在精度上的丢失是很严重的。

2008 年,一篇论文的发表将 3DMM 的精度进一步推广,公式 1 只采样了人脸在某一时刻的表情,因此在表情上没有考虑到其他情况,导致精度丢失。这篇论文增加了一个维度,因此叫「双线性模型」,在人脸基础上加上了表情因素,这样的计算结果更加可信。

公式 2。

这个双线性公式在公式 1 的思路上增加了一个系数 a,表示不同表情,b 表示不同的个体,w 是人脸数据库,到此 3DMM 在算法流程上完整了,为日后 Facewarehouse 等应用奠定了基础,后面的故事大家都知道了 Facewarehouse 推出了自己的数据库及应用思路,讲到这里我们对前面这些研究做个总结。

3DMM 缺点是很明显的,在技术泛化这条路上一路狂奔,忽略了人脸非常多的细节,尤其是高频低幅度的表情细节,在个体上体现非常明显,造成这个局面的原因有两个,基于统计的回归并不精确,是一个模糊解,3D 数据库模型的采集多数用成本低廉的设备生成,精度不高,两者加起来,3DMM 在高精应用场景可以说完全无法满足需求,更不可能达到工业级超高精度需要。

FACEGOOD 3DMM 模型

图示 1 BFM & SFM 模型 。

图示 2 FACEGOOD 模型。

为了更精确的计算人脸的 3D 信息,并能适用于工业级业务场景,FACEGOOD 团队采用相机阵列方式采集了 100 个不同个体的 3D 模型,每个人有 43 个不同的表情,以及他们对应的高精度皮肤材质数据,至于这些数据建立了 FACEGOOD 3DMM 模型。

目前开源的数据库主要有 BFM 跟 SFM 两个,同时还有一个 Facewarehouse 仅供学术研究使用,对比这些数据库,FACEGOOD 3DMM 主要体现在精度上,抛弃 kinect 这类民用级扫描技术,使用相机阵列的方式,可以完全重建人脸的所有肖像特征,如上图所示,图示 2 是 FACEGOOD 数据,图示 1 是 SFM 数据,后者在细节上损失很大,基本上只保留了人脸的大概特征。

FACEGOOD 超高精度流程

神经网络的优势主要在技术泛化上有很好的表现,但在高精度场合并非理想选择,为了达到高精度跟踪人脸的 3D 特征,包括脸型、五官的深度、微表情的变化等,FACEGOOD 研发人员使用传统算法实现了这一套方案,目前已经在超写实数字人上开始应用。

公式 3。

FACEGOOD Pose Estimation。

如上图公式 3 所示,基本思想是:同样基于人脸可由基础脸线性组合得出这样一个假设,FACEGOOD 团队研发了这样一套算法,Cm 是 FACEGOOD 3DMM 模型,第一步使用高精算法(图示 3)跟踪人脸的 2D 特征点,随后在此基础上拟合出人脸高精度 3D 模型,再通过 V(wi) 进一步优化 3D 模型,这一步的结果基本贴合到人脸。然后继续优化,在得出带有表情的基本 Eexp 之后,加上一个 detaV,使得 3D 模型完全对齐到人脸,到此就得到了一个完整的高精度的 3D 人脸,包括了在眼轮匝肌、口轮匝肌周围细微的高频的微表情信息。

最终,得出精确的 3D 人脸之后,通过肌肉仿真算法,将表情参数重定向到虚拟人物,就跑完了全流程。


参考文献:

· 微表情在戏剧表演中对艺术真实塑造的作用,曹娜,衡阳师范学校音乐系,2016

· T.F. Cootes and C.J. Taylor and D.H. Cooper and J. Graham (1995). "Active shape models - their training and application". Computer Vision and Image Understanding 

· Cootes, T. F.; Edwards, G. J.; Taylor, C. J. (1998). "Active appearance models". Computer Vision — ECCV'98. Lecture Notes in Computer Science.

· Bilinear Model for 3D Face and Facial Expression Recognition,Iordanis Mpiperis,Fellow,IEEE,2008.

· Ekman and W. Friesen. Facial Action Coding System: A Technique for the Measurement of Facial Movement. Consulting Psychologists Press, Palo Alto, 1978.

· BRADLEY, D., HEIDRICH, W., POPA, T., AND SHEFFER, A. 2010. High resolution passive facial performance capture. ACM Trans. Graph. 29, 4 (July), 41:1–41:10.

· PIGHIN, F. H., SZELISKI, R., AND SALESIN, D. 1999. Resynthesizing Facial Animation through 3D Model-based Tracking. In Proc. 7th International Conference on Computer Vision, Kerkyra, Greece, 143–150.

· WEISE, T., BOUAZIZ, S., LI, H., AND PAULY, M. 2011. Realtime performance-based facial animation. ACM Transactions on Graphics (Proceedings SIGGRAPH 2011) 30, 4 (July).LIU, X., MAO, T., XIA, S., YU, Y., AND WANG, Z. 2008. Facial animation by optimized blendshapes from motion capture data. Computer Animation and Virtual Worlds 19, 3–4, 235–245.

·  LI, H., ADAMS, B., GUIBAS, L. J., AND PAULY, M. 2009. Robust single-view geometry and motion reconstruction. ACM Transactions on Graphics (Proceedings SIGGRAPH Asia 2009) 28, 5.

· BALTRUSAITIS, T., ROBINSON, P., AND MORENCY, L.-P. 2012. 3D constrained local model for rigid and non-rigid facial tracking. In Computer Vision and Pattern Recognition (CVPR 2012).

· CHUANG, E., AND BREGLER, C. 2002. Performance driven facial animation using blendshape interpolation. Tech. rep., Stanford University.

理论人脸关键点检测FACEGOOD3D 人脸识别人脸检测
11
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

Tim Cootes人物

曼彻斯特大学计算机视觉教授。研究兴趣:形状和外观的统计模型、模型匹配算法等。

人脸对齐技术

人脸对齐可以看作在一张人脸图像搜索人脸预先定义的点(也叫人脸形状),通常从一个粗估计的形状开始,然后通过迭代来细化形状的估计。

推荐文章
天意有福科技股份有限公司・董事长
就是拟合啊