不使用残差连接,ICML新研究靠初始化训练上万层标准CNN

本论文介绍了如何利用动态等距和平均场理论完成一万层原版卷积神经网络的训练,研究者证明了仅仅使用恰当的初始化机制就能有效训练一万层原版 CNN 甚至更多层。研究者通过信号传播的平均场等理论导出该初始化机制,并表明在关键线上初始化的网络信号能高效传播,因此即使不使用残差连接或密集型连接等方式,超深卷积网络也能有效地训练。

1. 引言

深度卷积神经网络(CNN)是深度学习成功的关键。基于 CNN 的架构在计算机视觉语音识别自然语言处理以及最近的围棋博弈等多个领域取得了前所未有的准确率

随着深度卷积网络的深度增加,其性能也得到了改善。例如,一些在 ImageNet (Deng et al., 2009) 上表现最好的模型使用了数百甚至上千层卷积网络(He et al., 2016a;b)。但是这些非常深的网络架构只有在使用残差连接(He et al., 2016a)和批归一化(Ioffe & Szegedy, 2015)等技术时才能有效训练。这些技术是否能够从本质上提升模型性能或它们是否是训练超深度网络的必要手段,这个问题仍然有待解决。在本论文中,研究者结合理论和实验来研究原版 CNN,以理清可训练性和泛化性能的问题。研究者证明,审慎、以理论为基础的初始化机制可以在不使用其他架构技巧的情况下训练 10000 层原版 CNN。

图 1. 在不使用批归一化或残差连接而仅使用 Delta-Orthogonal 初始化(具备关键权重、偏差方差和恰当的非线性函数)的情况下,非常深的 CNN 网络架构是可以训练的。图为在 MNIST(上)和 CIFAR- 10(下)上模型深度为 1,250、2,500、5,000 和 10, 000 时的测试曲线(实线)和训练曲线(虚线)。

近期有研究使用平均场理论(mean field theory)来构建对使用随机参数神经网络的理论理解(Poole et al., 2016; Schoenholz et al., 2017; Yang & Schoenholz, 2017; Schoenholz et al., 2017; Karakida et al., 2018; Hayou et al., 2018; Hanin & Rolnick, 2018; Yang & Schoenholz, 2018)。这些研究通过探索哪些信号可以在初始化阶段传播来揭示网络的最大深度,并通过实验验证:当信号可以遍历网络时,网络可得到准确训练。在全连接层中,该理论还预测初始化超参数空间中存在从有序到混乱阶段的转变(相变/phase transition)。对于在阶段分割的关键线上进行初始化的网络,如果信号可以传播,那么任意深度的网络都可以被训练。

但尽管平均场理论能够捕捉到随机神经网络的「平均」动态,但它无法量化对于梯度下降稳定性至关重要的梯度波动。相关研究(Saxe et al., 2013; Pennington et al., 2017; 2018)使用输入-输出雅可比矩阵和随机矩阵理论,从激活函数和获取初始随机权重矩阵的分布的角度来量化奇异值分布。这些研究认为当雅可比矩阵是良态的(well-conditioned)时网络可以得到最高效的训练,条件是使用正交权重矩阵而非高斯权重矩阵。这些方法允许研究者高效训练非常深的网络架构,但是目前为止它们仅限于由全连接层组成的神经网络

本论文继续该研究方向,并将其扩展至卷积网络。研究者展示了一个定义明确且适用于卷积网络的平均场理论,即使图像较小,它也限制于信道数较多的情况。此外,卷积网络具备和全连接网络一样的从有序到混乱的相变,有序相位出现梯度消失,混乱相位出现梯度爆炸。和全连接层一样,在分割两种相位的关键线上进行初始化的超深 CNN 可以相对容易地进行训练。

现在来看平均场理论,研究者将(Pennington et al., 2017; 2018)的随机矩阵分析扩展至卷积环境中。此外,研究者还从小波变换文献中发现了一种高效的构建方法:使用块循环结构(对应卷积算子)生成随机正交矩阵。该构建促进了卷积层的随机正交初始化,并为任意深度网络的端到端雅可比矩阵设置了较好的条件数。实验证明使用该初始化的网络训练速度显著快于标准卷积网络。

最后,研究者强调即使全连接网络和卷积网络的从有序到混乱相位界限看似一样,但底层的平均场理论实际上有很大不同。具体来说,卷积理论的新颖之处在于存在多个深度来控制不同空间频率处的信号传播。在深度极限较大的情况下,信号只能沿着最小空间结构模式进行传播;所有其他模式即使是在关键线上最终也都会退化。研究者假设这种信号退化对泛化性能有害,并开发出一个修正版的初始化机制,该机制允许信号在所有频率中均衡传播。研究者将该机制称为 Delta-Orthogonal 初始化,其正交核从空间非均匀分布中得出,允许训练 10000 层甚至更多层原版 CNN,同时不会造成性能下降。

图 2. 平均场理论预测 CNN 的最大可训练深度。对于偏置项的固定方差 ,此热图显示在 MNIST 数据集上,深度为 L 和权重方差 σ_w 的网络在 (a) 500、(b) 2,500、(c) 10,000 以及 (d) 100,000 个训练步之后的训练准确率。白色虚线是多个典型 (6ξ_c) 深度下控制收敛至不动点的线。

图 3. 在 CIFAR-10 上,使用正交核进行不同深度初始化的 CNN 的测试曲线(实线)和训练曲线(虚线)。这些曲线(除了早停的 8192)的训练准确率都达到了 100%,而泛化性能随着深度增加逐渐下降,很可能是因为空间非均匀模式的衰减。图 1 的 Delta-Orthogonal 初始化解决了这一性能下降问题。

图 4. 随深度变化的测试性能与广义平均算子(A_v*)的奇异值分布(SVD)相关。(a)在关键线上的初始化,研究者检查了使用不同深度和不同非均匀方差向量的高斯初始化的 CNN 的测试准确率。研究者将来自 delta 函数(红色)的方差向量改变为均匀分布的方差向量(黑色)。从深度为 35 开始,测试准确率曲线也从红色变成了黑色。(b)所选方差向量的(A_v*)SVD。x 轴表示奇异值的索引,每个方差向量共有 64 个奇异值(每个有 64 个副本)。

图 5. 正交初始化带来 CNN 的更快速训练。使用具备同样权重方差的正交初始化(红色)和高斯初始化(黑色)对 4000 层 CNN 进行训练,实线为训练曲线,虚线为测试曲线。

3. 实验

研究者以 tanh 作为激活函数,在 MNIST 和 CIFAR-10 上训练了一个非常深的 CNN。研究者使用以下原版 CNN 架构。首先使用 3 个步幅分别为 1、2、2 的 3 × 3 × c 卷积,以将信道数量增加到 c,将空间维度减少到 7 × 7(对于 CIFAR-10 是 8 × 8),然后使用 d 个 3 × 3 × c 卷积,d 的范围是 [2, 10,000]。最后,使用一个平均池化层和全连接层。这里当 d ≤ 256 时 c = 256,当 d 大于 256 时 c = 128。为了最大程度地支持本文提出的理论,研究者不使用任何常见技术(包括学习率衰减)。注意,从计算角度来看,早期的下采样是必需的,但是它会降低最大性能上限;如使用下采样在 CIFAR-10 上获取的最优测试准确率是 82%。研究者额外进行了一个实验,在不使用下采样的情况下训练一个 50 层的网络,得到了 89.9% 的测试准确率,与使用 tanh 架构在 CIFAR-10 上得到的最优准确率不相上下(89.82%)。

论文:Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Network

论文链接:https://arxiv.org/abs/1806.05393

摘要:近年来,计算机视觉领域的顶级方法越来越多地使用深度卷积神经网络(CNN),其中最成功的一些模型甚至采用了数千层网络。而梯度消失、梯度爆炸这类问题使得训练这样的深层网络成为挑战。虽然残差连接和批归一化能够完成这种深度的模型训练,但此类专用架构设计对训练深度 CNN 是否真的必需还不清楚。在此研究中,我们证明了仅仅使用恰当的初始化机制就能够训练一万层原版 CNN 甚至更多层。我们通过信号传播的平均场(mean field)理论,以及定义动态等距(dynamical isometry)、输入-输出雅可比矩阵的奇异值平衡的条件,从理论上导出该初始化机制。这些条件要求卷积算子是正交变换,以保留范数。我们展示了生成此类随机初始化正交卷积核的算法,实验证明这可以促进非常深的网络架构的高效训练。

理论泛化深度残差网络深度神经网络高效卷积神经网络
51
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

范数技术

范数(norm),是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

我想知道,训练设备是什么?时间多久?