Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部专栏

去除双下巴有奇招,浙大00后本科生全新美颜算法登上ACM SIGGRAPH

浙江大学计算机辅助设计与图形学国家重点实验室和浙江大学-腾讯游戏智能图形创新技术联合实验室的研究者们提出了训练 StyleGAN 隐空间中精细的分离边界的方法,仅用一个向量就能在保持其它面部特征不变的情况下进行语义特征编辑。该方法在去除双下巴等应用中效果显著。

随着社交网络、直播以及短视频的流行,为了给别人留下更好的印象,人脸编辑「美颜」的应用范围越来越广泛,不断发展的科学技术使人脸编辑产生了非常多的研究分支。其中,生成对抗网络(GAN)的隐空间一直是个热点问题,现在越来越多的工作把注意力放在隐码的操控和隐空间中的语义解耦上。StyleGAN 是一种可生成高质量人脸图像的生成对抗网络,其隐空间具有非常好的线性特性。利用 StyleGAN 的这一特征可以实现高质量、应用场景广泛的人脸编辑。但是,如何在改变特定特征的同时保持其它无关特征不变,即进行特征的解耦,仍然是一个难题。

为解决这一问题,浙江大学计算机辅助设计与图形学国家重点实验室和浙江大学-腾讯游戏智能图形创新技术联合实验室可研究者们提出了训练 StyleGAN 隐空间中精细的分离边界的方法,仅用一个向量就能在保持其它面部特征不变的情况下进行语义特征编辑

以去除双下巴为例,该方法效果显著:

图 1:具有双下巴的肖像图像(第一排),去除双下巴后的新肖像(第二排)。

该研究的论文《Coarse-to-Fine: Facial Structure Editing of Portrait Images via Latent Space Classifications》已被计算机图形学顶级国际学术会议 ACM SIGGRAPH 2021 接收。

论文地址:http://www.cad.zju.edu.cn/home/jin/sig2021/sig2021.htm

研究方向

在 CV 领域里,生成对抗网络的隐空间一直是个热点问题,现在越来越多的工作把注意力放在隐码的操控上。InterFaceGAN 探究了生成对抗网络的隐空间是怎么进行编码的,并且提出了使用一个分离边界对语义属性进行编辑的方法;In-domain GAN 能够将输入的图像反转到生成对抗网络的隐空间中,并且作为正则器对隐码进行微调,并提出一种语义扩散的方法。

鉴于隐空间对于 StyleGAN 研究的重要性,越来越多的工作开始关注如何高效、高质量地将图像反转回 StyleGAN 的隐空间中,并得到相应的隐码;在此基础上,基于 StyleGAN 的投影器可以将图像直接反转回隐空间,从而进行图像到图像的转换,实现人脸姿态改变、人脸之间的线性插值等等功能,Image2StyleGAN 能够将图像反转回隐空间并且进行语义编辑。

将隐码和 3D 模型结合也可以参数化调整人脸特征,GIF 在一种生成 3D 人脸模型(FLAME)上应用 StyleGAN,从而对生成的图像进行显式控制;StyleRig 则基于 StyleGAN 和 3DMM 进行面部绑定控制,参数化调整人脸。

研究思想

新研究的核心思想是训练 StyleGAN 隐空间中精细的分离边界。分离边界是由 InterFaceGAN 提出的一种隐空间中的超平面,但是 InterFaceGAN 训练出的分离边界无法分离无关特征。本文提出精心设计的训练流程,生成成对的仅有特定特征改变的隐码(在去除双下巴的例子中,这些隐码除了有无双下巴外,其它特征基本保持一致),从这些成对隐码中训练精细的分离边界,从而实现面部结构编辑。

该研究首先训练一个双下巴分类器,根据双下巴的有无,对 StyleGAN 的隐空间中的隐码进行评分,随后使用随机采样的隐码及其对应的下巴评分进行训练,得到一个粗糙的分离边界,用来合成没有双下巴的中间肖像。在这过程中,其它面部特征,如人脸形状和姿势,在被粗糙的分离边界编辑后不能很好地保存。

为了解决这一问题,该研究引入了一种语义扩散方法,利用能将双下巴特征从其它特征中分离出来的颈部掩膜,将中间人像的新下巴的语义扩散到原始图像中,从而得到没有双下巴且保持了面部特征的肖像图像及其对应的隐码。最后,该研究利用成对的有双下巴和没有双下巴的隐码训练出一个精细的双下巴分离边界。

在测试阶段,利用精细的双下巴分离边界编辑输入的隐码,并且用图像形变算法优化输入和输出的图像在人脸边缘处细微的错位(misalignment),得到最终结果。

图 2:该研究的流程图,详情请参见论文原文。

结果展示

该研究在大量的肖像图像上测试了方法的性能,这些肖像图像有不同的性别、姿势、脸部形状、肤色。图 3 展示了由该研究提出的方法自动生成的结果。

以去除双下巴为例,该方法可成功地去除输入肖像图像的双下巴,同时很好地保持其它特征不变。

图 3:该研究的结果。前四行为参数连续调整的结果,后四行的每对图像中,左图为原图,右图为得到的结果。

与当前最优的面部编辑方法(SOTA)相比,该研究产生了更稳定和合理的结果,保持了面部特征的不变性,并且符合人脸结构。

图 4:方法对比。第一行为输入肖像图像,第二行为 MaskGAN 的结果,第三行为 SC-FEGAN 的结果,第四行为 Generative Inpainting 方法的结果,最后一行为我们方法的结果。

研究人员希望该研究能够为人脸编辑带来新的思路,同时希望给 StyleGAN 的隐空间研究带来启发。

作者简介

论文第一作者吴奕谦,女,21 岁,浙江大学大四本科生,将在今年 9 月于浙江大学 CAD&CG 国家重点实验室直接攻读博士。研究方向是计算机视觉、人脸编辑。

个人主页:https://onethousandwu.com/

论文作者杨永亮,英国巴斯大学副教授。2009 年于清华大学计算机科学与技术系获得博士学位,2009-2011 年为阿卜杜拉国王科技大学 (KAUST) 博士后研究员,2011 年 9 月至 2014 年 8 月在 KAUST 视觉计算中心担任助理研究员。发表 Siggraph、Siggraph Asia 论文 9 篇。主要研究方向为数字几何处理、虚拟现实人工智能

个人主页:http://www.yongliangyang.net/

论文作者肖钦杰,浙江大学 CAD&CG 国家重点实验室博士研究生,本科毕业于浙江大学数学系,研究方向是三维人脸重建、评估与编辑。

论文通讯作者金小刚,浙江大学计算机科学与技术学院教授,博士生导师。“十三五”国家重点研发计划首席科学家,浙江大学 - 腾讯游戏智能图形创新技术联合实验室主任,浙江省虚拟现实产业联盟理事长,中国计算机学会虚拟现实与可视化专委会副主任委员,杭州钱江特聘专家。第九届霍英东青年教师基金、浙江省杰出青年基金获得者,入选教育部新世纪优秀人才支持计划。在 ACM TOG (Proc. of Siggraph)、IEEE TVCG 等国际重要学术刊物上发表论文 140 多篇。2008 年获教育部高等学校科学研究优秀成果奖自然科学奖一等奖,2017 年获浙江省科技进步二等奖,2015 年获美国 ACM Recognition of Service Award 奖。获国际计算机动画学术会议 CASA'2017、CASA'2018 最佳论文奖,《计算机真实感图形的算法基础》获 2001 年国家科技图书二等奖。
  • Email: jin@cad.zju.edu.cn。

  • 个人主页:http://www.cad.zju.edu.cn/home/jin/

理论StyleGAN浙江大学去除双下巴
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。 腾讯希望成为各行各业的数字化助手,助力数字中国建设。在工业、医疗、零售、教育等各个领域,腾讯为传统行业的数字化转型升级提供“数字接口”和“数字工具箱”。我们秉持数字工匠精神,希望用数字创新提升每个人的生活品质。随着“互联网+”战略实施和数字经济的发展,我们通过战略合作与开放平台,与合作伙伴共建数字生态共同体,推进云计算、大数据、人工智能等前沿科技与各行各业的融合发展及创新共赢。多年来,腾讯的开放生态带动社会创业就业人次达数千万,相关创业企业估值已达数千亿元。 腾讯的愿景是成为“最受尊敬的互联网企业”。我们始终坚守“科技向善”的初心,运用科技手段助力公益事业发展,并将社会责任融入每一个产品。2007年,腾讯倡导并发起了中国互联网第一家在民政部注册的全国性非公募基金会——腾讯公益慈善基金会。腾讯公益致力于成为“人人可公益的创连者”,以互联网核心能力推动公益行业的长远发展为己任。腾讯公益联合多方发起了中国首个互联网公益日——99公益日,帮助公益组织和广大爱心网友、企业之间形成良好的公益生态,让透明化的“指尖公益”融入亿万网民的生活。

http://www.tencent.com/
生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

暂无评论
暂无评论~