Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

基于3D人脸动态的图像-视频生成方法

原文标题:Image-to-Video Generation via 3D Facial Dynamics

论文地址:https://ieeexplore.ieee.org/abstract/document/9439899

1、摘要

从单一的人脸图像生成其对应的视频是一个有趣的问题,研究者们通常利用人脸图像的稀疏特征点(landmarks)结合生成对抗网络(Generative Adversarial Networks, GANs)来进行人脸视频的生成。然而,由稀疏人脸特征点生成的人脸图像通常会遭受质量损失、图像失真、身份改变,以及表情不匹配等问题。在本文中,作者使用重建出的三维人脸动态信息来指导人脸视频的生成,旨在生成逼真的和身份不变的面部视频。三维人脸动态可以更好的表示人脸的面部表情和动作,可以作为有力的先验知识指导高度逼真的人脸视频生成。在文中,作者精心设计了一套三维动态预测和人脸视频生成模型(FaceAnime),来预测单张人脸图像的3D动态序列,然后通过稀疏纹理映射算法进一步渲染3D动态序列的皮肤细节。最后,利用条件生成对抗网络引导人脸视频的生成。实验结果显示,FaceAnime能从单张静止的人脸图像生成高保真度、身份不变性的人脸视频,较其它方法效果更好。

2、背景及简介

当前的人脸视频生成方法普遍采用人脸的稀疏特征点(landmarks)来引导图片或视频的生成,然而作者认为使用稀疏的二维特征点引导人脸图像/视频生成的主要缺点有:1. 稀疏人脸特征点不能很好地表示人脸图像的几何形状,容易导致人脸整体形状和面部结构细节的缺失,进而导致合成图像的失真和质量损失;2. 稀疏的二维特征点不携带源人脸图像的任何内容信息,这可能会导致生成的图像过拟合于只包含训练集的人脸图像中;3. 在视频生成过程中应保留人脸身份信息,但稀疏的2D特征点没有身份信息,容易导致合成结果的身份变化。文章的主要贡献如下:

  • 不同于广泛使用2D稀疏人脸landmarks进行图像/视频的引导生成,文章主要探索包含人脸丰富信息的3D动态信息的人脸视频生成任务;
  • 设计了一个三维动态预测网络(3D Dynamic Prediction,3DDP)来预测时空连续的3D动态序列;
  • 提出了一个稀疏纹理映射算法来渲染预测的3D动态序列,并将其作为先验信息引导人脸图像/视频的生成;
  • 文章使用随机和可控的两种方式进行视频的生成任务,验证提出方法的有效性。

3、方法描述

本文提出的FaceAnime包含一个3D动态预测网络(3D Dynamic Prediction, 3DDP)和一个先验引导的人脸生成网络(Prior-Guided Face Generation, PGFG)。首先,方法基于三维形变模型(3D Morphable Models, 3DMM)对单张人脸图像进行三维重建, 3DDP网络随后预测该图像未来的3D动态序列,之后将动态序列进行稀疏纹理映射渲染,最后使用PGFG网络完成相应的人脸生成。模型的整体网络架构和操作流程如图1所示。

图1. FaceAnime的整体框架图,包括3DDP网络(左)和PGFG网络(右)

13D人脸重建和稀疏纹理映射

3D形变模型(3D Morphable Model, 3DMM)用来从2D人脸图像中预测相应的3D人脸。其中,描述3D人脸的顶点(vertex)可由一系列2D人脸中的正交基线性加权得出:

其中,是平均脸, A(S)是形状主成分基, α(s)是相应的形状系数,A(exp)是表情主成分基,α(exp)是对应的表情系数。反过来,3D人脸顶点也可以通过变换映射到一个2维图像平面上,对应的公式可以表达为:

其中,V表示3D顶点在2维平面上的映射坐标,是固定的正交映射矩阵,P(r)是对应的旋转矩阵,而t为偏移向量。通过最小化映射landmarks和检测的landmarks之间的l(2)距离,最终可以求得3DMM中的系数。

如图2所示,给定一张源人脸图像(Source Face),其3D形状可以通过改变重建的3DMM系数来进行任意的修改, 则目标人脸的稀疏纹理可以由修改后的3DMM系数获得。在人脸重定向任务中,修改的3DMM系数可由参考人脸视频帧得到,而在人脸预测任务中,则由LSTM模块预测得到。为了防止在纹理映射中,密集的纹理先验信息太强而导致目标动作中出现不符合期望的结果,因此在纹理映射过程中本文采用间隔采样即稀疏纹理映射,以适应不同的人脸运动变化。

图2. 给定不同的3DMM系数所得到的不同三维人脸重建和稀疏映射的结果

不同于以往只针对某一种任务的视频生成,在本文中作者提出了三个不同的生成任务,即人脸视频重定向(Face video retargeting),视频预测(Video prediction)以及目标驱动的视频预测(Target-driven video prediction)。对于retargeting任务,作者使用参考视频来提供序列的变化信息,而不使用3DDP来预测。

视频预测:给定一个观测到的动态序列(3DMM coefficients),LSTM对其进行编码:

为了预测出一个合理的动作,LSTM不得不首先学习大量的动作输入以识别在姿态序列中运动的种类以及随时间的变化。在训练过程中,未来动态序列可以由下式生成:

其中d ̂(t)表示预测得到的3DMM系数,其表示在时刻t的3D dynamic。基于以上公式,模型可以从一个初始的dynamic d(0)学到一个合理的未来序列。

目标驱动的视频预测: 对于LSTM来讲,要实现目标引导的运动生成,模型需要两个输入,即source dynamic和target dynamic。 不同于视频预测,作者使用了一个计时器来对target dynamic进行重新赋权。整体的LSTM预测可以用公式表示为:

这里d(r)表示target dynamic,T为预测长度,即t=0表示序列开始时间,t=T为序列结束。

损失函数: 给一个source人脸图像, 作者使用2DAL模型回归出相应的3DMM系数,用来表示初始的3D dynamic d(0)。之后模型通过观测来d(0)生成一个系数序列d ̂(1:T)。在训练过程中,作者使用3DMM coefficient loss和3D vertex loss两个损失函数进行监督学习。3DMM coefficient loss定义为预测3DMM 系数和ground truth 3DMM系数之间的欧式距离:

而3D vertex loss定义为:

其中v ̂(1+t)和v(1+t)分别为预测得到的系数和标准系数对应的人脸三维顶点信息。则整体的损失函数可以表述为:

先验引导的人脸生成: 基于提出的稀疏纹理映射,source人脸图像被用于渲染预测的3D dynamics。在这里,稀疏纹理作为引导人脸生成的先验信息。文中提到的网络PGFG (Prior-Guided Face Generation Network)主要由条件GAN网络来组成,其结构如图1(右)所示。

PGFG网络的结构:PGFG生成器G有三个输入,分别是source人脸I(s),I(s)对应的纹理先验p(s)和目标的纹理先验p(t)。在这里,作者并没有直接使用目标的纹理先验p(t)作为先验引导,而是使用了先验残差来引导人脸生成,在特征空间可以获得运动残差:

。由此可得最终人脸为:

为了进一步利用不同空间位置的特征信息,编码器和解码器均由Dense blocks组成。判别器有两个输入,即目标人脸图像的纹理先验分别和生成人脸、目标人脸结合的输入

损失函数:网络PGFG由三个损失函数进行监督,分别为图像像素间的损失L(img),对抗损失L(adv)和身份信息损失L(id)。

需要注意的是,在身份信息损失中,R为预训练的人脸识别模型。网络整体的损失函数为:

4、实验结果

作者分别对人脸视频重定向、视频预测以及目标驱动的视频预测三个任务做了相应的大量实验。

人脸视频重定向:在这个任务中,作者分别对人脸表情的重定向以及头部讲话重定向两个子任务进行了实验。实验表明,所提出的FaceAnime模型可以很好的将source人脸图像中的表情和动作重定向到目标图像上,生成相对应的姿态和讲话表情,实验结果如图3所示。

图3. FaceAnime的人脸表情重定向(a)和头部讲话重定向(b)实验结果

人脸视频预测:这个任务中包含视频预测以及目标驱动的视频预测两个子任务。对每一个预测任务,实验过程中作者随机选取一张从人脸图像测试集IJB-C中抽取的单张人脸图像。对于视频测试,作者首先使用3DDP网络从source人脸中预测一个运动序列,然后用该序列引导人脸视频的生成。而对于目标引导的人脸预测任务,则需要两个输入图像。一个是source人脸,另一个为target人脸。3DDP网络用于预测从source人脸到target人脸之间平滑的运动变化,从而引导人脸视频的生成。图4和图5分别展示了视频生成和目标驱动视频生成两个子任务的生成结果。

图4. FaceAnime的视频生成结果 

图5. FaceAnime的目标驱动视频生成的结果

为了展示所提出方法的先进性,作者还同其他类似任务的算法进行了效果对比,部分结果显示如图6所示。

图6. FaceAnime和其它方法的对比结果

通过比较,FaceAnime不仅可以生成高质量且真实的人脸视频序列,同时生成的视频图像可以精确的还原参考视频中人脸表情和姿态变化,还能较好的保持人脸的身份信息。

大量实验表明,作者提出的方法可以将参考视频的姿态和表情变化重定位到source人脸上,并且对于一个随机的人脸图像,其可以生成合理的未来视频序列。对比其他最先进的人脸生成方法,所提出的方法在生成高质量和身份信息保持的人脸方面具有更好的效果。

作者简介

涂晓光,中国民用航空飞行学院讲师,从事人工智能、深度学习、计算机视觉等领域的研究工作。2013-2020年在电子科技大学攻读硕士和博士学位,2018年作为国家公派联合培养博士生前往新加坡国立大学学习交流一年半, 师从亚太地区杰出青年科学家冯佳时教授, 并于2019年至2020年相继在PENSEES新加坡研究院和字节跳动人工智能实验室担任算法实习研究员。目前,以第一作者在IEEE-TCSVT, IEEE-TMM, ACM-TIST等世界权威期刊上发表论文11篇, Google scholar引用200多次,第一作者发表SCI期刊总影响因子超过30,曾担任模式识别领域顶级期刊“Pattern Recognition”特邀审稿人。2020年12月份博士毕业,2021年3月以高层次人才引进身份入职中国民用航空飞行学院。

赵健,2012年获得北京航空航天大学学士学位,2014年获得国防科技大学硕士学位,博士就读于新加坡国立大学电子与计算机工程系,师从冯佳时教授和新加坡工程院院士、ACM/IEEE/IAPR Fellow颜水成教授,2019年获得博士学位,现为军事科学院助理研究员,入选中国科协2020-2022年度青年人才托举工程、北京市科协2021-2023年度青年人才托举工程,担任视觉与学习青年学者研讨会VALSE资深领域主席、中国图象图形学学会视觉大数据专业委员会CSIG-BVD委员、北京图象图形学学会BSIG第七届理事会理事。主要研究领域为人工智能、深度学习、模式识别、计算机视觉与多媒体分析。目前,共主持/参与科技委项目3项(序1/3/5),主持国家自然科学基金青年科学基金项目1项,参与军科院长基金项目1项(序3)。近5年已受理国家专利6项(序1),发表高水平学术论文40余篇,单篇影响因子最高16.389,其中,以第一作者发表CCF A类论文11篇(含2篇T-PAMI、2篇IJCV)。曾作为第一作者获得2021 USERN (Universal Scientific Education and Research Network) Prize提名,新加坡模式识别与机器智能协会PREMIA 2019 Lee Hwee Kuan奖(金奖),CCF A类会议、国际多媒体领域顶级会议ACM MM 2018最佳学生论文奖,CCF A类国际会议ICCV 2017 MS-Celeb-1M人脸识别竞赛Hard Set/Random Set/Low-Shot Learning全部任务全球冠军,CCF A类国际会议CVPR 2017 L.I.P竞赛人物解析与人物姿态估计全部任务全球亚军,美国国家标准与技术研究院NIST 2017 IJB-A无约束人脸识别竞赛人脸验证与人脸鉴别全部任务全球冠军。担任国家自然科学基金委评议专家,担任T-PAMI、IJCV、NeurIPS(NeurIPS 2018前30%最佳审稿人)、CVPR等本领域主流国际期刊/会议的受邀审稿人。

冯佳时,现任新加坡国立大学电子与计算机工程系助理教授,机器学习与视觉实验室负责人。

中国科学技术大学自动化系学士,新加坡国立大学电子与计算机工程系博士。2014-2015年在加州大学伯克利分校人工智能实验室从事博士后研究。现研究方向为图像识别、深度学习及面向大数据的鲁棒机器学习。冯佳时博士曾获ICCV’2015 TASK-CV最佳论文奖,2012年ACM多媒体会议最佳技术演示奖。担任ICMR 2017技术委员会主席,JMLR, IEEE TPAMI, TIP, TMM, TCSVT, TNNLS及 CVPR, ICCV, ECCV, ICML, NIPS, AAAI, IJCAI等期刊、会议审稿人。

理论计算机视觉视频生成
1
暂无评论
暂无评论~