Yedid Hoshen等作者Panda编译

为什么让GAN一家独大?Facebook提出非对抗式生成方法GLANN

生成对抗网络GAN)在图像生成方面已经得到了广泛的应用,目前基本上是 GAN 一家独大,其它如 VAE 和流模型等在应用上都有一些差距。尽管 wasserstein 距离极大地提升了 GAN 的效果,但其仍在理论上存在训练不稳定和模式丢失的问题。Facebook 的两位研究者近日融合了两种非对抗方法的优势,并提出了一种名为 GLANN 的新方法。

这种新方法在图像生成上能与 GAN 相媲美,也许除了 VAE、Glow 和 Pixcel CNN,这种新模型也能加入到无监督生成的大家庭中。当然在即将到来的 2019 年中,我们也希望 GAN 之外的更多生成模型会得到更多的成长,也希望生成模型能有更多的新想法。

生成式图像建模是计算机视觉长期以来的一大研究方向。无条件生成模型的目标是通过给定的有限数量的训练样本学习得到能生成整个图像分布的函数。生成对抗网络(GAN)是一种新的图像生成建模技术,在图像生成任务上有广泛的应用,原因在于:1)能训练有效的无条件图像生成器;2)几乎是唯一一种能用于不同域之间无监督图像转换的方法(但还有 NAM 也能做图像转换);3)是一种有效的感知式图像损失函数(例如 Pix2Pix)。

GAN 有明显的优势,但也有一些关键的缺点:1)GAN 很难训练,具体表现包括训练过程非常不稳定、训练突然崩溃和对超参数极其敏感。2)GAN 有模式丢失(mode-dropping)问题——只能建模目标分布的某些模式而非所有模式。例如如果我们用 GAN 生成 0 到 9 十个数字,那么很可能 GAN 只关注生成「1」这个数字,而很少生成其它 9 个数字。

一般我们可以使用生日悖论(birthday paradox)来衡量模式丢失的程度:生成器成功建模的模式数量可以通过生成固定数量的图像,并统计重复图像的数量来估计。对 GAN 的实验评估发现:学习到的模式数量显著低于训练分布中的数量。

GAN 的缺陷让研究者开始探索用非对抗式方案来训练生成模型,GLO 和 IMLE 就是两种这类方法。Bojanowski et al. 提出的 GLO 是将训练图像嵌入到一个低维空间中,并在该嵌入向量输入到一个联合训练的深度生成器时重建它们。GLO 的优势有:1)无模式丢失地编码整个分布;2)学习得到的隐含空间能与图像的形义属性相对应,即隐含编码之间的欧几里德距离对应于形义方面的含义差异。但 GLO 有一个关键缺点,即没有一种从嵌入空间采样新图像的原则性方法。尽管 GLO 的提出者建议用一个高斯分布来拟合训练图像的隐编码,但这会导致图像合成质量不高。

IMLE 则由 Li and Malik 提出,其训练生成模型的方式是:从一个任意分布采样大量隐含编码,使用一个训练后的生成器将每个编码映射到图像域中并确保对于每张训练图像都存在一张相近的生成图像。IMLE 的采样很简单,而且没有模式丢失问题。类似于其它最近邻方法,具体所用的指标对 IMLE 影响很大,尤其是当训练集大小有限时。回想一下,尽管经典的 Cover-Hart 结果告诉我们最近邻分类器的误差率渐进地处于贝叶斯风险的二分之一范围内,但当我们使用有限大小的示例样本集时,选择更好的指标能让分类器的表现更好。当使用 L2 损失直接在图像像素上训练时,IMLE 合成的图像是模糊不清的。

在本研究中,我们提出了一种名为「生成式隐含最近邻(GLANN:Generative Latent Nearest Neighbors)」的新技术,能够训练出与 GAN 质量相当或更优的生成模型。我们的方法首次使用了 GLO 来嵌入训练图像,从而克服了 IMLE 的指标问题。由 GLO 为隐含空间引入的迷人的线性特性能让欧几里德度量在隐含空间 Z 中具有形义含义。我们训练了一个基于 IMLE 的模型来实现任意噪声分布 E 和 GLO 隐含空间 Z 之间的映射。然后,GLO 生成器可以将生成得到的隐含编码映射到像素空间,由此生成图像。我们的 GLANN 方法集中了 IMLE 和 GLO 的双重优势:易采样、能建模整个分布、训练稳定且能合成锐利的图像。图 1 给出了我们的方法的一种方案。

图 1:我们的架构的示意图:采样一个随机噪声向量 e 并将其映射到隐含空间,得到隐含编码 z = T(e)。该隐含编码再由生成器投射到像素空间,得到图像 I = G(z)

我们使用已确立的指标评估了我们的方法,发现其显著优于其它的非对抗式方法,同时其表现也比当前的基于 GAN 的模型更优或表现相当。GLANN 也在高分辨率图像生成和 3D 生成上得到了出色的结果。最后,我们表明 GLANN 训练的模型是最早的能真正执行非对抗式无监督图像转换的模型。

论文:使用生成式隐含最近邻的非对抗式图像合成

论文链接:https://arxiv.org/pdf/1812.08985v1.pdf

生成对抗网络(GAN)近来已经主导了无条件图像生成领域。GAN 方法会训练一个生成器和一个判别器,其中生成器根据随机噪声向量对图像进行回归操作,判别器则会试图分辨生成的图像和训练集中的真实图像。GAN 已经在生成看似真实的图像上取得了出色的表现。GAN 尽管很成功,但也有一些关键性缺陷:训练不稳定和模式丢失。GAN 的缺陷正促使研究者研究替代方法,其中包括变分自编码器(VAE)、隐含嵌入学习方法(比如 GLO)和基于最近邻的隐式最大似然估计(IMLE)。不幸的是,目前 GAN 仍然在图像生成方面显著优于这些替代方法。在本研究中,我们提出了一种名为「生成式隐含最近邻(GLANN)」的全新方法,可不使用对抗训练来训练生成模型。GLANN 结合了 IMLE 和 GLO 两者之长,克服了两种方法各自的主要缺点。结果就是 GLANN 能生成比 IMLE 和 GLO 远远更好的图像。我们的方法没有困扰 GAN 训练的模式崩溃问题,而且要稳定得多。定性结果表明 GLANN 在常用数据集上优于 800 个 GAN 和 VAE 构成的基线水平。研究还表明我们的模型可以有效地用于训练真正的非对抗式无监督图像转换。

方法

我们提出的 GLANN(生成式隐含最近邻)方法克服了 GLO 和 IMLE 两者的缺点。GLANN 由两个阶段构成:1)使用 GLO 将高维的图像空间嵌入到一个「行为良好的」隐含空间;2)使用 IMLE 在一个任意分布(通常是一个多维正态分布)和该低维隐含空间之间执行映射

实验

为了评估我们提出的方法的表现,我们执行了定量和定性实验来比较我们的方法与已确立的基线水平。

表 1:生成质量(FID/ Frechet Inception Distance)

图 2:在 4 个数据集上根据衡量的精度-召回率情况。这些图表来自 [31]。我们用星标在相关图表上标出了我们的模型在每个数据集上的结果。

图 3:IMLE [24]、GLO [5]、GAN [25] 与我们的方法的合成结果比较。第一排:MNIST。第二排:Fashion。第三排:CIFAR10。最后一排:CelebA64。IMLE 下面空缺的部分在 [24] 中没有给出。GAN 的结果来自 [25],对应于根据精度-召回率指标评估的 800 个生成模型中最好的一个。

图 4:在 CelebA-HQ 上以 256×256 的分辨率得到的插值实验结果。最左边和最右边的图像是根据随机噪声随机采样得到的。中间的插值图像很平滑而且视觉质量很高。

图 5:在 CelebA-HQ 上以 1024×1024 的分辨率得到的插值实验结果

图 6:GLANN 生成的 3D 椅子图像示例

讨论

损失函数:在这项研究中,我们用一种感知损失(perceptual loss)代替了标准的对抗损失函数。在实践中我们使用了 ImageNet 训练后的 VGG 特征。Zhang et al. [40] 宣称自监督的感知损失的效果并不比 ImageNet 训练的特征差。因此,我们的方法很可能与自监督感知损失有相似的表现。

更高的分辨率:分辨率从 64×64 到 256×256 或 1024×1024 的增长是通过对损失函数进行简单修改而实现的:感知损失是在原始图像以及该图像的一个双线性下采样版本上同时计算的。提升到更高的分辨率只简单地需要更多下采样层级。研究更复杂精细的感知损失也许还能进一步提升合成质量。

其它模态:我们这项研究关注的重点是图像合成。我们相信我们的方法也可以扩展到很多其它模态,尤其是 3D 和视频。我们的方法流程简单,对超参数稳健,这些优点使其可比 GAN 远远更简单地应用于其它模态。我们在 4.4 节给出了一些说明这一点的证据。未来的一大研究任务寻找可用于 2D 图像之外的其它域的感知损失函数

2018 人工智能期末考试正在进行中,冲击「最高段位:王者机器」即有机会获得「华为云奖学金」:66666元。

识别下方二维码,立即开始答题。阅读原文,查看考试攻略。

理论生成对抗网络计算机视觉生成模型无监督GLANNFacebookGAN
4
相关数据
华为机构

华为成立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。华为的主要业务分布在无线、网络、软件、服务器、云计算、人工智能与大数据、安全、智能终端等领域,发布了5G端到端解决方案、智简网络、软件平台、面向行业的云解决方案、EI企业智能平台、新一代FusionServer V5服务器、HUAWEI Mate等系列智能手机、麒麟系列AI芯片等产品。目前华为拥有18万员工,36所联合创新中心,14所研究院/所/室,业务遍及170多个国家和地区。

http://www.huawei.com/cn
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

最大似然估计技术

极大似然估计是统计学中用来估计概率模型参数的一种方法

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

推荐文章
暂无评论
暂无评论~