Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

浙江大学计算机辅助设计与图形学国家重点实验室机器之心专栏

ACM MM 2021 | 人脸可胖可瘦,浙大提出稳定连续的视频人脸参数化编辑

​来自浙江大学计算机辅助设计与图形学国家重点实验室的研究者,提出了一个鲁棒且易于实现的基于视频序列的人脸胖瘦参数化方法。即使在侧脸、长发、戴眼镜及轻微遮挡等极端情况下,该方法依旧能够取得连续稳定的结果。

短视频的流行催生了基于视频的人脸编辑需求。尽管基于图像的人脸编辑方法已经比较成熟,但直接将基于图像的编辑方法应用于人脸视频通常会产生不稳定、不连续的结果。

浙江大学计算机辅助设计与图形学国家重点实验室在人脸胖瘦参数化研究领域有着较为丰富的经验,他们曾建立了一个关于人脸软组织厚度的回归方程,自然合理地对三维人脸进行胖瘦编辑,然后将编辑后的结果重映射回二维图像。因为只改变脸部脂肪部分而不会引起骨骼形变,该方法能够避免出现不符合自然规律的人脸变化。

今年,该研究小组进一步提出了一个鲁棒且易于实现的基于视频序列的人脸胖瘦参数化方法。即使在侧脸、长发、戴眼镜及轻微遮挡等极端情况下,该方法依旧能够取得连续稳定的结果。

下图 1 展示了这项技术的实际效果:

图 1 每一行表示一个视频的不同帧,而每一列表示该帧不同胖瘦参数的结果

该成果的学术论文《Parametric Reshaping of Portraits in Videos》已被多媒体领域顶级国际学术会议 ACM Multimedia 2021 接收,作为 Oral 论文发表。视频结果可见论文主页: 

论文地址:http://www.cad.zju.edu.cn/home/jin/ACMMM2021/ACMMM2021.htm


 相关工作

该研究建立在基于图像的人脸胖瘦编辑方法之上。基于图像的方法分为四个步骤:

  • 首先,基于输入人脸图像进行三维人脸重建;

  • 第二步,结合人脸软组织厚度的线性回归方程编辑并形变三维人脸;

  • 第三步,将变形后的三维人脸重投影回二维图像上;

  • 最后,对图像人脸外的部分进行形变以适应新生成的人脸投影。


该方法能在图像领域取得不错的结果,但难以直接应用于视频。首先,在重建步骤的最开始,人脸特征点检测不够精确导致帧与帧之间特征点会发生抖动或者偏移,引起三维人脸不连续变化。其次,对于一个较长的视频,由于人脸在图像中的角度和位置的改变,很难保证第一帧重建得到的人脸模型形状和最后一帧重建得到的人脸模型形状是一致的,比如一个人虽然正脸偏圆,但只看侧脸却难以准确评估其胖瘦程度。除了重建阶段的困难,在图像变形期间的困难也会影响结果的稳定性。三维人脸变形前后的每个顶点都存在确定的映射关系,但在二维图像上这一关系却难以保证——胖瘦形变很可能会使得部分人脸边界区域从遮挡物(包括鼻子,脸颊)后浮现或者隐藏,导致简单通过变形前后三维人脸投影点建立的对应二维图像映射关系出现多种错误。而这种映射关系的错误会导致结果的不连续性。最后,即便我们同时保证了重建结果的一致性和人脸变形前后二维映射的连续性,由于人脸在视频中的位置和所占图像面积不一样,图像形变之后背景的扭曲也将变得不一致,从而导致生成视频后产生抖动或者明显伪像。

本文研究思想

该研究逐一解决基于图像的胖瘦编辑方法应用于视频时遇到的稳定性和连续性问题。该研究按照流程将问题分成两个阶段:稳定一致的人脸重建,以及连续的图像形变。

在重建阶段,分为三个步骤:

  • 首先,逐帧估计人脸姿态,这一步骤将只使用自然表情下的平均人脸进行估计,以减少参数量来节省计算消耗;

  • 其次,获取每一帧的大致姿态后,从所有视频帧中选取最能代表人脸形状的连续多帧,并对选中的帧进行联合优化,从而获得准确的三维人脸形状;

  • 最后,将准确的人脸形状作为输入,以第一个步骤获得的人脸姿态作为初值,逐帧优化得到每一帧的人脸表情参数


在图像方法的优化基础上,该研究采用光流能量项平衡特征点检测抖动问题,采用边界能量项解决远离相机一侧特征点检测偏移问题,采用时序能量项保证帧间稳定性。该研究确保了整段视频只存在唯一一组人脸形状参数,同时建立起稳定连续的三维人脸序列。在三维人脸编辑时,该研究先将三维人脸模型中的表情参数分离,胖瘦编辑之后再将表情参数恢复到编辑后的三维人脸上。

在图像形变阶段,该研究提出了一个基于有向距离场的方案,通过建立变形前后人脸边界区域像素的密集映射获得连续的视频结果。该密集映射的建立首先借助变形前后三维模型存在映射关系这一特征,将形变前的二维人脸边界点逆投影至三维人脸模型上,与变形后三维人脸模型对应顶点的投影建立初始映射。然后,建立有向距离场,调整该初始映射,使得每个映射都准确对应着变形前后的人脸边界。最后,结合三维人脸结构,去除因为遮挡关系变化导致的映射突变情况,保证密集映射在帧与帧之间的连续性。获得的密集映射关系最终将作为控制点用于形变原图像以符合变形后的人脸模型投影,并使用优化方程降低背景区域的扭曲。最终结果显示该方法能够在大形变、佩戴眼镜、长发遮挡及其他存在短暂遮挡的情况下获得视觉稳定无伪像的结果。

下图为该研究的 Pipeline,具体细节参见论文:

结果展示

所展示结果均来自原论文主页提供的视频。下图展示了同一个视频不同胖瘦尺度的结果,其中为负数表示变瘦,为正数表示变胖,数值的绝对值表示变胖变瘦的程度:

下图展示了人物站在复杂背景前面的结果,中间小图为视频原始帧,左右分别为变胖以及变瘦之后的该图,在视频中需要仔细观察靠近人脸附近的砖块,可以看到细微扭曲:

下图展示了非正脸场景下的变形情况:

下图展示了被轻微遮挡的结果,左图为原图,右图为变形后的相同帧:

下图展示被头发遮挡部分脸颊并出现头部姿态大幅度移动的情况,左图为原图,右图为变形后的相同帧:

作者简介

论文第一作者唐祥峻,浙江大学 CAD&CG 国家重点实验室攻读博士。研究方向为虚拟人、虚拟现实、特效模拟。

个人主页:http://yuyujunjun.github.io/

论文作者孙文欣,浙江大学 CAD&CG 国家重点实验室硕士。研究方向为人脸编辑。

论文作者杨永亮,英国巴斯大学副教授。2009 年于清华大学计算机科学与技术系获得博士学位,2009-2011 年为阿卜杜拉国王科技大学 (KAUST) 博士后研究员, 2011 年 9 月至 2014 年 8 月在 KAUST 视觉计算中心担任助理研究员。发表 Siggraph、Siggraph Asia 论文 9 篇。主要研究方向为数字几何处理、虚拟现实和人工智能

个人主页:http://www.yongliangyang.net/

论文通讯作者金小刚,浙江大学计算机科学与技术学院教授,博士生导师。「十三五」国家重点研发计划首席科学家,浙江大学 - 腾讯游戏智能图形创新技术联合实验室主任,浙江省虚拟现实产业联盟理事长,中国计算机学会虚拟现实与可视化专委会副主任委员,杭州钱江特聘专家。第九届霍英东青年教师基金、浙江省杰出青年基金获得者,入选教育部新世纪优秀人才支持计划。在 ACM TOG (Proc. of Siggraph)、IEEE TVCG 等国际重要学术刊物上发表论文 140 多篇。2008 年获教育部高等学校科学研究优秀成果奖自然科学奖一等奖,2017 年获浙江省科技进步二等奖,2015 年获美国 ACM Recognition of Service Award 奖。获国际计算机动画学术会议 CASA'2017、CASA'2018 最佳论文奖,《计算机真实感图形的算法基础》获 2001 年国家科技图书二等奖。Email: jin@cad.zju.edu.cn。

个人主页:http://www.cad.zju.edu.cn/home/jin/
理论三维人脸重建视频人脸编辑
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

推荐文章
暂无评论
暂无评论~