Jens Behrmann Ricky T. Q. Chen等作者

ResNet架构可逆!多大等提出性能优越的可逆残差网络

近日,来自德国不来梅大学和加拿大多伦多大学的研究者提出一种新架构——可逆残差网络,可用于分类、密度估计和生成任务。而在此之前,单个架构无法在判别和生成任务上同时取得优秀性能。值得一提的是,NeurIPS 2018 最佳论文获得者 David Duvenaud 、陈天琦也是本文作者。 

神经网络模型的一个主要诉求是用单个模型架构解决各种相关任务。然而,最近的许多进展都是针对特定领域量身定制的特定解决方案。例如,无监督学习中的当前最佳架构正变得越来越具有领域特定性 (Van Den Oord et al., 2016b; Kingma & Dhariwal, 2018; Parmar et al., 2018; Karras et al., 2018; Van Den Oord et al., 2016a)。另一方面,用于判别学习的最成功的前馈架构之一是深度残差网络 (He et al., 2016; Zagoruyko & Komodakis, 2016),该架构与对应的生成模型有很大不同。这种划分使得为给定任务选择或设计合适架构变得复杂。本研究提出一种在这两个领域都表现良好的新架构,弥补了这一差距。

为此,研究者将精力集中于可逆网络,在相同的模型范例中,可逆网络已被证明在判别 (Gomez et al., 2017; Jacobsen et al., 2018) 和生成 (Dinh et al., 2014; 2017; Kingma & Dhariwal, 2018) 任务上都具有竞争性的表现。已有的可逆网络通常依赖对固定维度进行分割的启发式法,而体积不守恒(non-volume conserving)的常见分割法受到了限制,且其选择对网络的性能又有极大的影响 (Kingma & Dhariwal, 2018; Dinh et al., 2017)。这使得构建可逆网络很困难。在本文中,研究者展示了一些有助于实现优秀密度估计性能的外来设计会严重损害判别性能。

为了克服这一问题,研究者利用 ResNet 作为常微分方程的 Euler 离散化,并证明通过简单地改变标准 ResNet 的归一化机制就可以构建可逆 ResNet。图 1 可视化了标准和可逆 ResNet 学习到的动态差异。

图 1:标准残差网络(左)和可逆残差网络(右)的动态。可逆 ResNet 描述了双射连续动态(bijective continuous dynamics),而常规 ResNet 导致与非双射连续动态相对应的交叉和折叠路径(白色圈)。由于折叠路径,标准 ResNet 不是有效的密度模型。

这种方法允许每个残差块的无约束架构,而每个块只需要小于 1 的 Lipschitz 常数。研究者证明,在构建图像分类器时,这种限制对性能的影响可以忽略不计——在对 MNIST、CIFAR10 和 CIFAR100 图像进行分类时,它们的性能与不可逆的同类分类器相当。

接下来,研究者展示了如何将 i-ResNet 训练成无标注数据上的最大似然生成模型。为了计算似然度,他们向残差模块的雅可比行列式引入了一个易处理的近似。与 FFJORD(Grathwohl et al., 2019)类似,i-ResNet flow 拥有不受约束(自由形式)的雅可比行列式,这使得它们能够学习比其他可逆模型使用的三角形映射更具表达性的变换。实验表明,与当前最佳的图像分类器和基于流的生成模型相比,i-ResNets 的性能也具有竞争力,它将通用架构在现实中的应用又推进了一步。

论文:Invertible Residual Networks

论文链接:https://arxiv.org/pdf/1811.00995.pdf

摘要:本研究证明,标准 ResNet 架构可以是可逆的,且可用于分类、密度估计和生成任务。通常,执行可逆需要分割维度或限制网络架构。但本研究提出的方法只需要在训练期间添加一个简单的归一化步骤,这在标准框架中已经可以做到。可逆 ResNets 定义了一个可使用最大似然在无标注数据上训练的生成模型。为了计算似然度,我们对残差块的雅可比对数行列式引入易处理的近似。实验结果表明,可逆 ResNet 的性能堪比当前最优的图像分类器和基于流的生成模型,而单个架构在这之前是无法做到的。

2. 在 ResNet 中执行可逆性

以下定理表明,一个简单的条件就足以使上述动态过程可解,从而使 ResNet 可逆:

注意,这一条件不是可逆性的必要条件。

使用 Lip(g) < 1 可使 ResNet 可逆,但我们没有这种可逆的解析形式,不过我们可以通过一个简单的定点迭代来获得,见算法 1。

3. 使用 i-ResNet 进行生成建模

图 2:i-ResNet 流和 Glow 的可视化比较。

表 1:i-ResNet、ResNet 与 NICE (Dinh et al., 2014)、Real-NVP (Dinh et al., 2017)、Glow (Kingma & Dhariwal, 2018) 及 FFJORD (Grathwohl et al., 2019) 的对比结果。「Non-volume Preserving」指允许收缩和扩张的能力,以及计算变量 (3) 变化的确切似然。「Unbiased Estimator」是指对数行列式的随机近似。

5. 实验

研究者对可逆 ResNet 进行了大量实验研究。首先,研究者用数值方法验证了 i-ResNets 的可逆性。接下来,他们研究了 i-ResNet 在多个常用图像分类数据集上的判别能力。另外,他们还将 i-ResNet 的判别性能与其他可逆网络进行了对比。最后,他们研究了如何将 i-ResNet 用于定义生成模型

5.1 验证可逆性和分类性能

图 3:原始图像(上)、i-ResNet 在 c = 0.9 时的重建结果(中)以及相同架构的标准 ResNet 的重建结果(下)。该图表明固定点迭代在没有 Lipschitz 约束的情况下无法重建输入图像。

表 2:i-ResNet 与类似深度和宽度的 ResNet-164 基线架构的对比结果,其中 Lipschitz 约束通过系数 c 来变化。Vanilla 与 i-ResNet 架构相同,但是它不具备 Lipschitz 约束。

5.2 i-ResNet 与其他可逆架构的对比

表 3:i-ResNet 与最新技术 Glow 在 CIFAR10 数据集上的分类结果。这里对比了两个版本的 Glow 和与 Glow 层数、通道数都类似的 i-ResNet 架构(i-ResNet, Glow-Style)。

5.3 生成建模

图 4:本文提出的对数行列式估计量的偏差和标准差随幂级数项数量增加而发生的变化。方差是由随机 trace estimator 决定的。

图 5:i-ResNet flow 中的 CIFAR10 样本。

表 4:多种方法在 MNIST 和 CIFAR10 数据集上的 bits/dim 结果。† 使用 ZCA 预处理,因此其结果无法与其他方法直接对比。

理论ResNet陈天琦深度残差网络
3
相关数据
神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

深度残差网络技术

残差网络是为了解决深度神经网络(DNN)隐藏层过多时的网络退化问题而提出。退化(degradation)问题是指:当网络隐藏层变多时,网络的准确度达到饱和然后急剧退化,而且这个退化不是由于过拟合引起的。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

推荐文章
暂无评论
暂无评论~