Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Yiwen Liao作者、Xiang Chen, Panda参与Hao Wang编辑

变性与换脸:使用GAN进行无监督的图像到图像翻译

伦敦帝国理工学院和印度理工学院的研究者提出了一种使用生成对抗网络(GAN)的无监督图像到图像翻译方法,能够实现人脸性别特征的转变和人像换脸。

论文地址:https://arxiv.org/pdf/1701.02676.pdf

1 引言

这篇论文提出了一种实现“图像到图像翻译”的通用方法,其中使用了深度卷积和条件生成对抗网络(GAN)。在这项研究中,研究者开发了一个两步式无监督学习方法——无需指定图像之间的任何对应关系就能实现翻译。

“图像到图像翻译”是什么

“图像到图像翻译”的意思是将图像从其原始形式自动转变成某种合成形式(风格变化、部分内容变化等),同时保留原有图像的结构或形义。在这篇论文中,研究者关注的是将一个域的图像翻译到其它域,比如人脸互换、性别转换。

2 方法

图 2 展示了整个网络的架构:

图 2:两步式学习的网络架构。这里的案例是两个类别/域的情况,而新提出的方法可扩展到多个域

其学习过程分为两个步骤:学习共享特征和学习图像编码器。

第一步:学习共享特征

如图 2 左侧部分所示,研究者使用了辅助分类器 GAN(AC-GAN)来学习从不同域采样的图像的全局共享特征。这些共享的特征可表示成一个隐向量 z。

在这个步骤之后,生成器 G 能通过保持该隐向量固定并改变类别标签来生成不同域的对应图像。

第二步:学习图像编码器

研究者提出了一种新方法来将图像嵌入成隐向量。他们在第一步实现的生成器 G 之后应用了图像编码器 E,并通过最小化输入隐向量和输出隐向量之间的均方误差(MSE)来训练这个图像编码器 E,如图 2 中图所示。

之前的方法通常是在图像编码器 E 之后使用生成器 G,通过重建图像训练 E(最小化输入图像和生成图像之间的 MSE)。与之前的方法相比,这种新方法不仅能重建细节特征,还能加速训练过程。

翻译

在上面提到的两个步骤之后,就可以使用训练后的 E 和训练后的 G 来翻译图像了,如图 2 右侧所示:给定需要翻译的输入图像 X,使用训练后的图像编码器 E 将带有域/类标签 c=1 的 X_real 嵌入成隐向量 Z。然后将 Z 与另一个域/类标签 c=2 作为训练后的生成器 G 的输入,生成图像 X_fake 作为最终结果。

3 结果

如图 3 所示,训练后的网络能够改变图像中目标人的性别。在变换之后,人脸的表情和其它面部细节能够得到很好的保留。合成图像的质量也与输入图像相近。

图 3:性别变换的结果示例。奇数列是输入图像,偶数列是对应的合成的输出图像。

如图 4 所示,训练后的网络还能交换从视频中提取出的图像中的人脸。训练后的网络不仅能在某种程度上保持原有的面部表情,还能保持原有的人脸/头部方向,这对视频中的换脸是很有用的。

图 4:人脸互换的结果示例4 结论

这篇论文提出了一种用于通用的无监督图像到图像翻译的两步式学习方法。这种方法能在保证人脸表情不变的同时翻译图像,能针对不同的头部/面部方向交换人脸。他们的方法具有通用的功能,可支持不同的学习场景。

5 分析师的思考

点评:

这篇论文使用了一种两步式的无监督学习方法来翻译图像,得到了相对让人满意的结果。除了重建整个图像,研究者还重建了隐向量来训练图像编码器。一方面,由于这个隐向量的维度远低于原始图像,所以这能实现训练过程的加速。另一方面,这种隐向量具备原始图像的全局特征,这比原始图像的像素级细节更加重要。

可能存在的问题: 

  1. 用于训练这个网络的图像都有相同的尺寸——64×64 像素,这个分辨率不高。因此,很难看出输出图像的细节是否生成得够好。比如,从这些图像可以看出,输入图像中的眼睛和服饰的边缘比输出图像的更清晰。
  2. 研究者认为这个网络能在某种程度上学会重建背景。但这些生成的背景更像是噪声,而不是”良好重建的背景“。在当前的 GAN 中,GAN 作为噪声或干扰是一个常见的问题,其影响也很降低。
  3. 换脸结果表明这个网络确实能维持头部/人脸的方向,但它不能学会和生成对应的光线角度。比如,在图 4 中,尽管奥巴马和希拉里的所有图像都有相似的朝向,但光线角度却各不相同。对于换脸任务,光线是一个很重要的背景信息,应该在生成之后得到保持。这个网络在这一点上表现不佳。

推荐: 

这篇论文主要基于下列模型和研究。

这篇论文中使用的 AC-GAN 基于论文《使用辅助分类器 GAN 的条件图像合成(https://arxiv.org/abs/1610.09585 )》。下图展示了几种不同的 GAN。

这篇论文中的“域迁移网络”思想来自论文《无监督跨域图像生成(https://arxiv.org/abs/1611.02200 )》,这是一篇 ICLR 2017 的 poster 论文。其主要思想是:

给定两个相关的域 S 和 T。目标是学习一个生成函数 G,其可将来自域 S 的输入样本映射到域 T,使得给定函数 f(可接收来自任何一个域的输入)的输出保持不变。

这个网络的架构如下所示:

技术分析GAN图像合成图像生成无监督
相关数据
映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

推荐文章
暂无评论
暂无评论~