日本信州大学和马来西亚马来亚大学的研究者提出了一种使用生成对抗网络来生成艺术作品的方法,其提出的 ArtGAN 相对之前的标准 GAN 有一些值得关注的创新。
论文地址:http://doi.org/10.1109/ICIP.2017.8296985
1 引言
这篇论文提出了一种名叫 ArtGAN 的方法,可用于生成如下图艺术作品这样的复杂图像。
之前基于 GAN 的研究成果通常都被用于生成图像,而且这些图像通常都有清晰可辨的前景和背景,而且每张图像中通常只有一个或两个(主要)目标。此外,这些目标通常有相对结构化的外形。相比于之前的这些成果,ArtGAN 可以生成带有抽象信息的图像,比如带有特定的艺术风格的图像。
从技术上讲,这篇论文让与标签有关的损失函数能够从判别器反向传播给生成器。
2 模型架构和实验
2.1 生成对抗网络(GAN)
GAN 主要由两部分构成:生成器(G)和判别器(D)。G 会根据接近训练样本(真实图像)的分布生成图像。与此同时,D 会学习区分来自训练样本的图像和生成的图像。其目的是为 D 和 G 找到最优的参数以便所生成的图像尽可能接近真实。从数学上看,GAN 的训练即是对下列目标函数的优化:
其中,D 的训练是通过最大化训练数据的概率(第一项),同时最小化来自 G 的样本的概率(第二项)。
2.2 基于条件 GAN 的 ArtGAN
基于 2.1 的 GAN,这篇论文中的 ArtGAN 有一个关键的技巧:允许使用 D 的损失函数将每张生成的图像的标签反馈给 D。也就是说,额外的(标签)信息 y-hat 被添加到了 GAN 网络。这正是人类学习绘画的方式。
D 通过最小化函数(2)更新:
它和之前的条件 GAN 有一样的思想。与此同时,函数(2)的最大化会更新 G 中的 theta_G 以与 D 竞争。所以函数(2)可被重构成函数(3)的最小化问题:
这篇论文使用的另一个技巧是将一个 L2 损失函数(4)添加到了 G 中且仅用于像素级的重构,以提升 ArtGAN 的训练稳定性。
基于上面的函数,ArtGAN 的整体架构可以构建成如图 2 的形式。
图 2:ArtGAN 的整体架构。其整体设计类似于标准的 GAN,不同之处是为 G添加了额外的输入标签 y-hat,D 则输出标签分布的概率。Enc 到 Dec 之间也添加了一个连接来为 L2 像素级重构损失构建图像。
注意,作为这个网络的输入的 z-hat 和 y-hat 是连接在一起的密集向量。
2.3 实验和结果
这项研究使用了具有大约 80000 张有标签的艺术作品的 Wikiart 数据集来训练 ArtGAN。
图 3 展示了具有“艺术家”标签的随机向量生成的图像。很明显可以看到,艺术家对颜色和线条的偏好被很好地提取了出来并在示例中得到了呈现。图 4 使用了“风格”作为额外的标签向量来生成图像。其纹理和颜色特征得到了很好的保留,但从这些生成的图像中无法提取出有用的信息。
图 3:根据艺术家的艺术作品生成的样本,上图基于古斯塔夫·多雷的作品,下图基于文森特·梵·高的作品
3 总结
优点:这篇论文提出了一种全新的 ArtGAN,可用于合成具有复杂和抽象特征的图像。其关键的创新是在反向传播步骤的来自标签信息的反馈,这能提升所生成的图像的质量。
未来工作:
- 使用更深度的 ArtGAN 也许能保留更多细节信息,从而让所生成的图像更优质。
- 联合学习这些模式,以便 ArtGAN 能基于多种模式的组合来创建艺术作品。
4 分析师简评
一般性点评:这篇论文提出了一种使用额外的标签信息来生成复杂图像的条件 GAN。比起之前的研究成果(比如 DCGAN 或 GAN/VAE),这个 ArtGAN 的视觉效果更好。L2 损失仅在 G 中使用,因为研究者发现将该损失用于 D 中时会导致所生成的图像的质量下降。这是一个很有意思的发现。尽管这个网络是一个监督式模型,但每张图像也并不需要太复杂的标签。
可能存在的问题:定义“复杂”是很困难的。研究者认为艺术作品比之前的 GAN 所使用的普通训练数据更加复杂。但在我看来,某些艺术作品,尤其是抽象派艺术,是由很多色块构成的;其结构会比自然图像简单。所以,使用 GAN 来生成画作究竟是不是更加困难,还有待验证。另外,在艺术领域,“风格”并没有明确的定义。因为这不仅涉及到图像的纹理和色彩,还涉及到艺术家的某些偏好。
其它想法:艺术作品生成是一项很难的工作。一方面,正如这篇论文展现的那样,这是一个机器学习问题。另一方面,这也是一个艺术或识别问题。也就是说,涉及到我们定义艺术的方式以及我们观察这个世界的方式。具体而言,每位艺术家都绘画的是他们各自眼中的世界,这意味着真实世界中的事物被映射成了艺术家头脑中的其它形象。对于生成更“真实”的艺术作品而言,我觉得我们不仅应该关注给定的艺术作品,还应该尝试探寻将真实世界事物映射成艺术形象的方式。