伦敦帝国理工学院和印度理工学院的研究者提出了一种使用生成对抗网络(GAN)的无监督图像到图像翻译方法,能够实现人脸性别特征的转变和人像换脸。
论文地址:https://arxiv.org/pdf/1701.02676.pdf
1 引言
这篇论文提出了一种实现“图像到图像翻译”的通用方法,其中使用了深度卷积和条件生成对抗网络(GAN)。在这项研究中,研究者开发了一个两步式无监督学习方法——无需指定图像之间的任何对应关系就能实现翻译。
“图像到图像翻译”是什么?
“图像到图像翻译”的意思是将图像从其原始形式自动转变成某种合成形式(风格变化、部分内容变化等),同时保留原有图像的结构或形义。在这篇论文中,研究者关注的是将一个域的图像翻译到其它域,比如人脸互换、性别转换。
2 方法
图 2 展示了整个网络的架构:
其学习过程分为两个步骤:学习共享特征和学习图像编码器。
第一步:学习共享特征
如图 2 左侧部分所示,研究者使用了辅助分类器 GAN(AC-GAN)来学习从不同域采样的图像的全局共享特征。这些共享的特征可表示成一个隐向量 z。
在这个步骤之后,生成器 G 能通过保持该隐向量固定并改变类别标签来生成不同域的对应图像。
第二步:学习图像编码器
研究者提出了一种新方法来将图像嵌入成隐向量。他们在第一步实现的生成器 G 之后应用了图像编码器 E,并通过最小化输入隐向量和输出隐向量之间的均方误差(MSE)来训练这个图像编码器 E,如图 2 中图所示。
之前的方法通常是在图像编码器 E 之后使用生成器 G,通过重建图像训练 E(最小化输入图像和生成图像之间的 MSE)。与之前的方法相比,这种新方法不仅能重建细节特征,还能加速训练过程。
翻译
在上面提到的两个步骤之后,就可以使用训练后的 E 和训练后的 G 来翻译图像了,如图 2 右侧所示:给定需要翻译的输入图像 X,使用训练后的图像编码器 E 将带有域/类标签 c=1 的 X_real 嵌入成隐向量 Z。然后将 Z 与另一个域/类标签 c=2 作为训练后的生成器 G 的输入,生成图像 X_fake 作为最终结果。
3 结果
如图 3 所示,训练后的网络能够改变图像中目标人的性别。在变换之后,人脸的表情和其它面部细节能够得到很好的保留。合成图像的质量也与输入图像相近。
如图 4 所示,训练后的网络还能交换从视频中提取出的图像中的人脸。训练后的网络不仅能在某种程度上保持原有的面部表情,还能保持原有的人脸/头部方向,这对视频中的换脸是很有用的。
4 结论
这篇论文提出了一种用于通用的无监督图像到图像翻译的两步式学习方法。这种方法能在保证人脸表情不变的同时翻译图像,能针对不同的头部/面部方向交换人脸。他们的方法具有通用的功能,可支持不同的学习场景。
5 分析师的思考
点评:
这篇论文使用了一种两步式的无监督学习方法来翻译图像,得到了相对让人满意的结果。除了重建整个图像,研究者还重建了隐向量来训练图像编码器。一方面,由于这个隐向量的维度远低于原始图像,所以这能实现训练过程的加速。另一方面,这种隐向量具备原始图像的全局特征,这比原始图像的像素级细节更加重要。
可能存在的问题:
- 用于训练这个网络的图像都有相同的尺寸——64×64 像素,这个分辨率不高。因此,很难看出输出图像的细节是否生成得够好。比如,从这些图像可以看出,输入图像中的眼睛和服饰的边缘比输出图像的更清晰。
- 研究者认为这个网络能在某种程度上学会重建背景。但这些生成的背景更像是噪声,而不是”良好重建的背景“。在当前的 GAN 中,GAN 作为噪声或干扰是一个常见的问题,其影响也很降低。
- 换脸结果表明这个网络确实能维持头部/人脸的方向,但它不能学会和生成对应的光线角度。比如,在图 4 中,尽管奥巴马和希拉里的所有图像都有相似的朝向,但光线角度却各不相同。对于换脸任务,光线是一个很重要的背景信息,应该在生成之后得到保持。这个网络在这一点上表现不佳。
推荐:
这篇论文主要基于下列模型和研究。
这篇论文中使用的 AC-GAN 基于论文《使用辅助分类器 GAN 的条件图像合成(https://arxiv.org/abs/1610.09585 )》。下图展示了几种不同的 GAN。
这篇论文中的“域迁移网络”思想来自论文《无监督跨域图像生成(https://arxiv.org/abs/1611.02200 )》,这是一篇 ICLR 2017 的 poster 论文。其主要思想是:
给定两个相关的域 S 和 T。目标是学习一个生成函数 G,其可将来自域 S 的输入样本映射到域 T,使得给定函数 f(可接收来自任何一个域的输入)的输出保持不变。
这个网络的架构如下所示: