Minjun Li等作者

腾讯AI lab & 复旦大学合作提出无监督高分辨率的图像到图像转换方法SCAN

在最近由腾讯 AI Lab 主导,与复旦大学合作完成的一篇论文中,作者们提出了一种新型堆叠循环一致性对抗网络(SCAN),它将单个转换过程分解为多阶段的转换,因此同时提升了图像转换质量与图像到图像转换的分辨率。

最近关于无监督的图像到图像转换研究取得了较为显著的进展,其主要思想是通过训练一对具有循环一致性损失(cycle-consistent loss)的生成对抗网络Generative Adversarial Networks)。然而,当图像分辨率高或者两个图像域具有显著差异时(例如 Cityscapes 数据集中图像语义分割与城市景观照片之间的转换),这种无监督方法可能产生较差的结果。

在本论文中,通过把单个转换分解为多阶段转换,作者提出了堆叠循环一致性对抗网络(SCAN)。其通过学习低分辨率图像到图像的转换,然后基于低分辨率的转换学习更高分辨率的转换,这样做提高了图像转换质量并且使得学习高分辨率转换成为可能。此外,为了适当地利用来自前一阶段的学习到的信息,研究者设计了自适应融合块以学习当前阶段的输出和前一阶段的输出的动态整合。在多个基准数据集的实验表明,与以前的单阶段方法相比,本文提出的方法可以大大提高图像到图像转换的质量。

从最初的 pix2pix,到最近面向高分辨率的 pix2pixHD,有监督的图像到图像转换研究已经取得了很大进展。另一方面,以 CycleGANDiscoGAN、ContrastGAN 为代表的方法,重点研究了无监督的图像到图像的转换。

然而当图像分辨率高或者两个图像域具有显著差异时,这些无监督的方法仍然无法取得十分令人满意的结果。受近期多阶段改善网络的启发,本文提出了堆叠循环一致性对抗网络(SCAN),如图 1 所示。给定两个图像域的数据(没有一一对应的匹配),SCAN 通过从粗糙到精细的方式渐进式地学习了高分辨率的图像到图像的转换。由于没有一一对应的匹配图像对,整个学习过程是非监督的。

在 SCAN 中,一个复杂的图像到图像转换问题被分解为多个更简单的转换阶段。最开始低分辨率的阶段学习了大致的图像低频信息转换过程,后续高分辨率的阶段学习了如何逐步添加图像高频细节。

图 1 堆叠循环一致性对抗网络(SCAN)示意图

SCAN 具体的网络设计如图 2 所示。这里展示两阶段的网络设计。可以迭代式地对最后一阶段进行分解,得到由更多阶段组成的转换网络。对于任意的图像集合 X 与 Y,两个变换 G:X→Y 与 F:Y→X 完成两个集合之间的图像转换。通过多阶段图像转化模型把变换分解为 ,使得图像转化可以分两个阶段学习。每个阶段都由相同的编码器-解码器结构组成。对于第一阶段输出,我们限制其图像大小为原图的一半,第二阶段输出图像大小与原图大小一致。对于 x∈X,两个阶段的输出分别为 ,类似地对于 y∈y,两个阶段的输出分别为 。两个阶段的输出由自适应融合层根据不同输入动态结合以产生最后转化结果。

具体方法为:对于不同输入计算两个阶段输出的融合权重α,最后转化结果为两个阶段输出基于融合权重α的线性结合。两个阶段的学习都应用图像转化的非监督学习(3.2.3 节)使得学习过程不依赖任何图像标签对。具体来说,我们同时学习两个方向图像转化,并应用循环一致性约束,限制  以及 ,同时结合对抗学习的方式从无标签数据中学习。

图 2 SCAN 的网络设计(以两阶段网络为例)

在标签图和真实图像互相转换的任务上,我们与 CycleGAN、ContrastGAN、pix2pix 等方法进行了对比。同时也对比了本文方法的一些组件和变种。表 1 展示了不同方法的数值结果。对于标签图转照片(Labels to Photo)任务,我们采用了 FCN scores 来进行比较。对于照片转标签图(Photo to Labels)任务,我们采用了 Segmentation scores 来比较。可以看到,本文方法的结果远超 CycleGAN 和 ContrastGAN 这两种无监督的方法,大大缩小了与有监督的方法 pix2pix 之间的差距。

表 1 不同方法数值结果的比较

图 3 展示了在 512x512 分辨率下,标签图转换成照片的直观结果。可以看到,与 CycleGAN 相比,本文提出的 SCAN 能够生成更具真实感的照片。

图 3 标签图转照片的直观结果比较

此外,利用 SCAN 还可以更好地完成涉及物体形状改变的图像到图像转换,如真人头像到动漫头像的转换。图 4 展示了真人头像转动漫头像的直观结果,可以看到眼睛和嘴巴的大小和形状都发生了改变,不再是简单的逐像素变换。

图 4 真人头像转动漫头像的结果

理论图像转换无监督学习
3
相关数据
非监督学习技术

非监督式学习是一种机器学习的方式,并不需要人力来输入标签。它是监督式学习和强化学习等策略之外的一种选择。在监督式学习中,典型的任务是分类和回归分析,且需要使用到人工预先准备好的范例(base)。一个常见的非监督式学习是数据聚类。在人工神经网络中,自组织映射(SOM)和适应性共振理论(ART)则是最常用的非监督式学习。

发现跨域关系的生成对抗网络技术

DiscoGAN是一种能够自动学习并发现跨域关系的生成对抗网络。该模型建立了从一个领域到另一个领域的映射关系。在训练过程中,使用两个不同的图像数据集,并且这两个数据集之间没有任何显式的标签,同时也不需要预训练。该模型把一个领域中图像作为输入,然后输出另一个领域中的对应的图像(如下图所示)。该模型的核心是把两个不同的GAN结合在一起——每一个GAN保证产生式函数能够把一个领域和另一个领域映射起来。该模型的主要应用之一是图像的风格迁移。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

CycleGAN技术

GAN的一个变种

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

推荐文章
暂无评论
暂无评论~