Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大规模生成对抗网络

BigGAN 是由赫瑞瓦特大学的 Andrew Brock和DeepMind 的 Jeff Donahue以及Karen Simonyan在DeepMind合作完成的。他们的论文 LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS (https://arxiv.org/abs/1809.11096)于2018年九月28日被arxiv (https://arxiv.org/)收入,并提交到 ICLR 2019 。截至12月初已经有在Pytorch上的第三方的实现,如AaronLeong的BigGAN-Pytorch (https://github.com/AaronLeong/BigGAN-pytorch)。BigGANs 使类条件图像合成(class-conditional image synthesis)开启了新篇章。

来源:Synthesis
简介

BigGAN 是由赫瑞瓦特大学的 Andrew Brock和DeepMind 的 Jeff Donahue以及Karen Simonyan在DeepMind合作完成的。他们的论文 LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS于2018年九月28日被arxiv收入,并提交到 ICLR 2019 。截至12月初已经有在Pytorch上的第三方的实现,如AaronLeong的BigGAN-Pytorch。BigGANs 使类条件图像合成(class-conditional image synthesis)开启了新篇章。

虽然目前在图像生成领域的研究有了一些进展,但是在一个复杂的数据库,比如ImageNet生成高分辨率并且多样的图像还是比较困难的问题。发现在生成网络(generator)中采用正交正则化(orthogonal regularization) 使得一种被称为truncation trick的优化方法成为可能,并可更为精准的控制生成图片相对样本的忠实度和多样性之间的平衡。BigGAN的作者尝试在训练生成对抗性网络时有以下三点贡献:

  1. 证明了GAN极大的受益于训练规模,并且在之前的条件下增加大量参数以及八倍 batch size,仍然能以 2 倍到 4 倍的速度训练模型。作者引入了两种简单的生成架构变化,提高了可扩展性,并修改了regularization scheme 以提升条件化,这可论证地提升了性能。
  2. 作为修改的副作用,该模型变得服从「截断技巧」,这是一种简单的采样技术,允许对样本忠实度和生成图片多样性的取舍进行精细的控制。
  3. 发现大规模 GAN 带来了不稳定性,并对其进行经验的归类总结。此分析表明,将一种新型的和已有的技术结合可以减少这种不稳定性,但要实现完全的训练稳定性必须以显著降低性能为代价。

BigGANS在ImageNet上训练128*128分辨率的模型时,BigGANs 的IS分数达到了166.3并且FID也只有9.6。而在此之前,最好的模型(SA-GAN)的IS只有 52.52, 而且FID高达 18.65。

生成网络的大规模化

  1. 在基线模型(SA-GAN)上,增大batch size为原作的八倍获得了46%的IS提升。 值得注意的是在提升训练速度的同时,训练稳定性更早地受到了负面影响。(Table 1 的1-4行)
  2. 将每层的通道数量变为二倍 (等效增加了一倍参数) 获得了21%的IS提升。
  3. 采用层间共享类别嵌入层 (Shared class embedding) 来减轻计算和内存负担,并获得37%的速度提升。
  4. 通过将噪音向量z馈入生成网络的多个层而不是仅仅第一层中层级化潜在空间 (Hierarchical latent space),并获得4%的性能提升和18%的速度提升。

Screen Shot 2018-12-22 at 22.29.39.png

  1. 存在truncation trick 时的真实性和多样性的平衡

Truncation trick 是指通过重新采样幅度高于所选阈值的值来截断隐向量z导致个体样品质量的改善,但代价是多样性下降。对于一个特定的生成网络,该技术允许对真实性和多样性的平衡进行细致的后验选择。但是!作者的一些较大的模型并不适应截断,在馈送截断噪声时会产生饱和伪影。为了解决这个问题,作者采用正交正则化来使生成网络变得平滑,并利于将z的全体映射到好的生成样本上。

Screen Shot 2018-12-22 at 23.01.58.png

R_\beta(W) = \beta \left\lVert W^\intercal W - I \right\rVert^2_F

作者发现最好的版本从正则化中删除了对角项,并且旨在最小化 之间的成对余弦相似性,但不限制它们的范数:

Screen Shot 2018-12-22 at 23.02.03.png

R_\beta(W) = \beta \left\lVert W^\intercal W \odot (\mathbf{1} - I) \right\rVert^2_F

table 1 最后一行显示正交正则化取得了良好的效果,可截断模型数从总数的16%上升至60%。

[引用来源] [论文:Large Scale GAN Training For High Fidelity Natural Image Synthesis https://arxiv.org/pdf/1809.11096.pdf]

发展历史

描述

BigGANs是在高像素且真实的图像合成的目的下对GAN的改良,BigGANs 使类条件图像合成(class-conditional image synthesis)开启了新篇章。因为GAN自身难训练,不稳定等缺陷,在一个比较复杂的数据集上,例如ImageNet,生成高像素并且多样的图像还是比较困难的。作者们尝试在训练生成对抗性网络(GAN)时,发现在生成网络(generator)中采用正交正则化(orthogonal regularization) 使得一种被称为truncation trick的优化方法成为可能,并可更为精准的控制生成图片相对样本的忠实度和多样性之间的平衡。下图为一些BigGANs生成的256*256及512*512分辨率的图像。

Screen Shot 2018-12-30 at 19.47.03.png BigGANs采用了ResNet GAN 架构,该架构与 Miyato等在Spectral normalization for generative adversarial networks使用的架构相同,但在判别网络中的在通道模式被修改,使得每个块的第一个卷积层中的滤波器数量等于输出滤波器的数量(而不是输入滤波器的数量)

image.png [引用来源] [论文:Large Scale GAN Training For High Fidelity Natural Image Synthesis https://arxiv.org/pdf/1809.11096.pdf]

主要事件

年份事件相关论文/Reference关系
2014GANGoodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680).GAN proposed
2017Orthogonal RegularizationBrock, A., Lim, T., Ritchie, J. M., & Weston, N. (2016). Neural photo editing with introspective adversarial networks. arXiv preprint arXiv:1609.07093.Orthogonal regularisation attempted by BigGANs to make more models amenable to truncation
2018SA-GANZhang, H., Goodfellow, I., Metaxas, D., & Odena, A. (2018). Self-Attention Generative Adversarial Networks. arXiv preprint arXiv:1805.08318.Baseline of BigGAN
2018gradient penaltyMescheder, L., Geiger, A., & Nowozin, S. (2018, July). Which training methods for gans do actually converge?. In International Conference on Machine Learning (pp. 3478-3487).gradient penalty used in reducing the instability of the discriminator.
 
2018 Spectral normalizationMiyato, T., Kataoka, T., Koyama, M., & Yoshida, Y. (2018). Spectral normalization for generative adversarial networks. arXiv preprint arXiv:1802.05957Architecture used in BigGAN
2018BigGANBrock, A., Donahue, J., & Simonyan, K. (2018). Large scale gan training for high fidelity natural image synthesis. arXiv preprint arXiv:1809.11096.BigGAN proposed

发展分析

瓶颈

大规模应用时的不稳定性分析

虽然前面提到BigGAN的性能有了很大的改善,但是模型经历了训练崩溃,需要在实践中提早停止。 在接下来,我们将探索为什么在大规模应用时,以前工作中稳定的设置会变得不稳定。作者分生成网络和判别网络进行了探索。

在生成网络中,作者探索了额外条件化对频谱爆炸的影响

  1. 对每个权重通过一个固定的首个奇异值\sigma_0 或者次奇异值的比值进行正则化
  2. 通过部分奇异值分解来约束首个奇异值

同样的,在判别网络中作依旧加入额外限制以寻找稳定。作者假设这种噪声是通过对抗训练过程进行优化的结果,其中G周期性地产生强烈干扰D的批次。如果这种频谱噪声与不稳定性有因果关系,那么自然的想法是使用梯度惩罚,这可以明确地规范了D的雅可比行列式的变化,采取R1零中心梯度惩罚。训练变得稳定并改善了G和D中光谱的平滑度和有界性,但性能严重下降,导致IS减少45%。

Screen Shot 2018-12-23 at 00.12.05.png

作者发现对生成网络进行正则化并不能够有效减轻训练崩溃的问题,因此转向判别网络。 作者发现在对抗训练中生成网络生成的batch强烈扰动判别网络,产生了噪音。因此自然地采用梯度惩罚来尝试解决训练不稳定的问题。经过一系列实验,作者最终发现不论何种正则化,dropout,和L2的组合,训练稳定性的提高都最终伴随着形能的下降。并得出结论,稳定性取决于生成网络和判别网络的共同作用, 二者缺一不可。

未来发展方向

作者发现允许训练崩溃并没有想象的那么可怕,相反,放宽对生成网络的约束并允许在训练后期发生奔溃可以换取更好的性能。这给以后生成对抗网络的训练指出了一个新的方向。

Contributor:LIUChen

简介