CycleGAN

GAN的一个变种

简介

循环生成对抗网络是一种无监督生成对抗网络,它的主要想法是训练两对生成器-判别器模型以将图像从一个领域转换为另一个领域,在这过程中我们要求循环一致性。即在序列地应用生成器后,我们应该得到一个相似于原始 L1 损失的图像。因此我们需要一个循环损失函数(cyclic loss),它能确保生成器不会将一个领域的图像转换到另一个和原始图像完全不相关的领域。

该模型包含两个映射函数 G : X  ---> Y 和 F : Y  ---> X,以及相关的对抗式鉴别器 D_Y 和 D_X。D_Y 鼓励 G 将 X 翻译为 Y 风格的图像,反之亦然。为了进一步规范映射,研究者引入了两个「循环协调损失函数」,确保转换后的风格在反转换后可以回到处理之前的状态,如下图所示:

这个方法允许我们学习将马映射到斑马。

这样的转换通常是不稳定的,并且经常创建一些不成功的案例:

[图片及描述来源:从Pix2Code到CycleGAN:2017年深度学习重大研究进展全解读|机器之心]

发展历史

2014年,还在蒙特利尔读博士的Ian Goodfellow将GAN引入深度学习领域,很快GAN就在AI领域兴起了浪潮。

2016年,伯克利人工智能研究室(BAIR)非常引人注目的研究 Image-to-Image Translation with Conditional Adversarial Networks 中提出了Pix2Pix,研究人员解决了图像到图像的生成问题。例如需要使用卫星图像创建地图,或使用素描创建逼真的目标纹理等。

为了应用 Pix2Pix,他们需要包含了不同领域图像对的数据集。收集这样的数据集并不困难,但对于更复杂一点的转换目标或风格化目标等操作,原则上是找不到这样的目标对。

因此,Pix2Pix 的作者为了解决这样的问题提出了在不同图像领域之间转换而不需要特定图像对的 CycleGAN 模型,原论文为《Unpaired Image-to-Image Translation》。

2018年,CMU 和 Facebook 的研究者Yaser Sheikh等人联合进行的一项研究提出了一种新型无监督视频重定向方法 Recycle-GAN,该方法结合了时间信息和空间信息,可实现跨域转换,同时保留目标域的风格。相较于只关注空间信息的Cycle-GAN,在视频转换中Recycle-GAN的过渡效果更加自然。

主要事件

年份事件相关论文/Reference
2014Ian Goodfellow et al. 提出了生成对抗网络(GAN),这是一种无监督学习方法Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680).
2016伯克利人工智能研究室(BAIR)非常引人注目的研究 Image-to-Image Translation with Conditional Adversarial Networks 中提出了Pix2PixIsola, P.; Zhu, J.-Y.; Zhou, T.; Efros, A. A. (2016). Image-to-Image Translation with Conditional Adversarial Networks. CVPR.
2017Pix2Pix 的作者为了解决这样的问题提出了在不同图像领域之间转换而不需要特定图像对的 CycleGAN 模型Zhu, J.- Y.; Park, T.; Isola, P.; Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. arXiv:1703.10593v5.
2018CMU 和 Facebook 的研究者Yaser Sheikh等人联合进行的一项研究提出了一种新型无监督视频重定向方法 Recycle-GANBansal, A.; Ma, S.; Ramanan, D.; Sheikh, Y. (2018). Recycle-GAN: Unsupervised Video Retargeting. ECCV.

发展分析

瓶颈

CycleGAN 有如下几个缺点:

1. 会在改变物体的同时改变背景

2. 缺少多样性

a) 生成的图片的指定特征只有一种,比如加上去的眼镜永远是黑框眼镜;

b) Source domain 和 target domain 的维度应该是不一样的,比如笑和不笑,笑自然是闭着嘴,但是不笑的程度多种多样,可能有微笑,哈哈大笑等等。又比如无眼镜就是一种,有眼镜可以是各式各样的眼镜;

c) CycleGAN 可以看成有两个映射 f1 和 f2,f1 把 source domain 映射到 target domain, f2 是从 target domain 到 source domain 的映射,f2 是 f1 的逆映射。然而 f1 是一个连续的映射(因为 G 用到的那些操作都是连续映射的复合),所以根据已知的结论 (https://en.wikipedia.org/wiki/Invariance_of_domain),两个 domains 的 dimensions 是相同的,然而这和我们之前的分析矛盾。所以这也是 CycleGAN 不能做特定 attribute transfer 的一个关键问题所在。

3.在需要几何变化的任务上表现一般

未来发展方向

图像生成需要能够处理多样、更极端的变换,尤其是几何变换;另外,使用监督学习也许可以增进模型在细节上的准确性。

Contributor: Yuanyuan Li

相关人物
亚瑟·谢赫
亚瑟·谢赫
卡内基梅隆大学机器人研究所副教授,Facebook 现实实验室主任。研究重点:社交行为的机器感知和渲染、扩展计算机视觉的子领域、计算机图形学和机器学习。
Ian Goodfellow
Ian Goodfellow
Ian Goodfellow 是机器学习领域备受关注的年轻学者之一,他在本科与硕士就读于斯坦福大学,师从吴恩达,博士阶段则跟随蒙特利尔大学的著名学者Yoshua Bengio研究机器学习。Goodfellow 最引人注目的成就是在2014年6月提出了生成对抗网络(GAN)。这一技术近年来已成为机器学习界最火热的讨论话题,特别是在最近几个月里,与GAN有关的论文不断涌现。GAN已成为众多学者的研究方向。
Alexei (Alyosha) Efros
Alexei (Alyosha) Efros
简介
相关人物