描述一张图像对人类来说相当容易,我们在很小的时候就能做到。在机器学习中,这项任务是一个判别分类/回归问题,即从输入图像预测特征标签。随着最近 ML/AI 技术(尤其是深度学习模型)的进步,它们开始在这些任务中脱颖而出,有时会达到甚至超过人类的表现,如视觉目标识别(例如,从 AlexNet 到 ResNet 在 ImageNet 分类任务上的表现)和目标检测/分割(如从 RCNN 到 YOLO 在 COCO 数据集上的表现)等场景中展示的一样。
然而,另一方面,基于描述生成逼真图像却要困难得多,需要多年的平面设计训练。在机器学习中,这是一项生成任务,比判别任务难多了,因为生成模型必须基于更小的种子输入产出更丰富的信息(如具有某些细节和变化的完整图像)。
虽然创建此类应用程序困难重重,但生成模型(加一些控制)在很多方面非常有用:
- 内容创建:想象一下,广告公司可以自动生成具有吸引力的产品图像,而且该图像不仅与广告内容相匹配,而且与镶嵌这些图片的网页风格也相融合;时尚设计师可以通过让算法生成 20 种与「休闲、帆布、夏日、激情」字样有关的样鞋来汲取灵感;新游戏允许玩家基于简单描述生成逼真头像。
- 内容感知智能编辑:摄影师可以通过几次单击改变证件照的面部表情、皱纹数量和发型;好莱坞制片厂的艺术家可以将镜头里多云的夜晚转换成阳光灿烂的早晨,而且阳光从屏幕的左侧照射进来。
- 数据增强:自动驾驶汽车公司可以通过合成特定类型事故现场的逼真视频来增强训练数据集;信用卡公司可以合成数据集中代表性不足的特定类型欺诈数据,以改进欺诈检测系统
[描述来源:定制人脸图像没那么难!使用TL-GAN模型轻松变脸|机器之心]
发展历史
2014年,还在蒙特利尔读博士的Ian Goodfellow将GAN引入深度学习领域,到目前为止,GAN模型已经是图像生成模型的首选之一了。
2016年,Scott Reed, Honglak Lee等人开发了一种新的GAN架构,以有效地桥接文本和图像建模之间的步骤,将视觉概念从字符转换为像素。 他们并且展示了他们的模型从详细的文字描述中生成合理的鸟和花图像的能力。Han Zhang,Dimitris Metaxas等人扩展了这个方法,提出了堆叠生成对抗网络(StackGAN)来生成基于文本描述的256x256照片真实图像。他们通过草图细化过程将难题分解为更易于管理的子问题。 Stage-I GAN根据给定的文本描述绘制对象的原始形状和颜色,产生Stage-I低分辨率图像。 Stage-II GAN将Stage-I结果和文本描述作为输入,并生成具有照片般逼真细节的高分辨率图像。它能够纠正第一阶段结果中的缺陷,并通过细化过程添加引人注目的细节。为了改善合成图像的多样性并稳定条件GAN的训练,他们引入了一种新的调节增强技术,该技术可以促进潜在调节声称图像的平滑性。广泛的实验和与基准数据集上的当时技术的比较表明,他们所提出的方法在生成以文本描述为条件的照片般逼真的图像方面实现了显着的改进。
2018年,Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena提出了自我注意生成对抗网络(SAGAN),它允许注意力驱动的远程依赖建模用于图像生成任务。传统的卷积GAN生成高分辨率细节,仅作为低分辨率特征图中空间局部点的函数。在SAGAN中,可以使用来自所有要素位置的提示生成详细信息。此外,鉴别器可以检查图像的远端部分中的高度详细的特征是否彼此一致。SAGAN 已经将 ImageNet 在生成上的 IS 达到了 52 分。
DeepMind 带来的 BigGAN 创造性的将正交正则化的思想引入 GAN,通过对输入先验分布 z 的适时截断大大提升了 GAN 的生成性能,BigGAN 在 SAGAN 的基础上一举将 IS 提高了 100 分,达到了 166 分。
主要事件
年份 | 事件 | 相关论文/Reference |
2014 | Ian Goodfellow et al. 提出了生成对抗网络(GAN),这是一种无监督学习方法 | Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680). |
2016 | Scott Reed, Honglak Lee等人开发了一种新的GAN架构,以有效地桥接文本和图像建模之间的步骤 | Reed, S.; Akata, Z.; Yan, X.; Logeswaran, L.; Schiele, B. and Lee, H. (2016). Generative adversarial text-to-image synthesis. ICML. |
2017 | Han Zhang,Dimitris Metaxas等人扩展了这个方法,提出了堆叠生成对抗网络(StackGAN)来生成基于文本描述的256x256照片真实图像 | Zhang, H.; Xu, T.; Li, H.; Zhang, S.; Huang, X.; Wang, X. and Metaxas, D. (2017). Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks. ICCV. |
2018 | Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena提出了自我注意生成对抗网络(SAGAN) | Zhang, H.; Goodfellow, I.; Metaxas, D.; Odena, A. (2018). Self-Attention Generative Adversarial Networks. arXiv:1805.08318. |
2018 | DeepMind 带来的 BigGAN 创造性的将正交正则化的思想引入 GAN | Brock, A.; Donahue, J.; Simonyan, K. (2018). Large Scale GAN Training for High Fidelity Natural Image Synthesis. arXiv:1809.11096. |
发展分析
瓶颈
目前BigGAN等模型等模型取得了前所未有的逼真效果,但其所需要训练的参数也是巨量的,这对硬件的要求很高。
未来发展方向
丰富的背景和纹理图像的生成是各类生成模型追求的终极目标,像BigGAN等模型正在朝着这个方向前进,他们的特点主要是:
- 通过大规模 GAN 的应用,BigGAN 实现了生成上的巨大突破;
- 采用先验分布 z 的“截断技巧”,允许对样本多样性和保真度进行精细控制;
- 在大规模 GAN 的实现上不断克服模型训练问题,采用技巧减小训练的不稳定。
Contributor: Yuanyuan Li