暴力方法将成过去?UC伯克利等新研究返璞归真,探索网络的本质

深度卷积神经网络的训练很难,方法很多,有没有可能从中提炼出一条指导性原则呢?加州大学的研究者抛弃暴力搜索方法,试图回归网络最核心简洁的性质。研究作者之一、加州大学伯克利分校马毅教授表示:这应该是真正按原理设计而得到的深度网络。

初始化、归一化和残差连接(skip connection)被认为是训练深度卷积神经网络(ConvNet)并获得最优性能的三大必备技术。

最近,来自加州大学伯克利分校和圣迭戈分校的研究者发布一项研究,提出不使用归一化和残差连接的深度 ConvNet 在标准图像识别基准上也能实现优异的性能。其实现方式是:在初始化和训练期间,令卷积核具备近似保距性(near isometric);使用 ReLU 激活函数的变体,实现保距性。

  • 论文地址:https://arxiv.org/pdf/2006.16992.pdf

  • GitHub 地址:https://github.com/HaozhiQi/ISONet

研究人员进行了大量实验,结果表明此类近似保距网络与残差连接结合后,在 ImageNet 数据集上的性能与 ResNet 相当,在 COCO 数据集上的性能甚至超过 ResNet。而前者甚至都没有应用归一化。

该研究作者之一计算机视觉学者、加州大学伯克利分校马毅教授表示:

这应该是真正按原理设计而得到的深度网络…… 我们这个工作应该是为把深度网络与低维结构密切结合起来的第一步 — 提供了令人信服的实验证据。

靠暴力土豪 trial and error 的方式寻找网络结构的风气,应该会很快过去

训练深度 ConvNet 的方法那么多,是否存在指导性原则?

卷积神经网络在计算机视觉领域获得了巨大成功。而深度卷积神经网络能够学习实际复杂数据的决策规则,因而往往能够获得优异性能。

但是深度 ConvNet 的训练本质上是比较有难度的。从最初的权重初始化、特征图归一化和残差学习技术,到后来的大量网络架构组件,如新型非线性激活函数权重正则化等,深度 ConvNet 训练方法层出不穷。这些技术受到不同角度的启发,如预防死亡的神经元、增强自归一化、减少滤波器冗余、提升泛化性等。

现有的大量架构组件及其多样化的设计原则使得 ConvNet 架构设计成为一项困难的任务。到底结合哪些组件来构建网络呢?

这就引出了一个问题:

对于非常深层的 ConvNet 的训练,是否存在核心的指导性原则?

Isometric Network (ISONet) 

对此,该研究给出的答案是:保距(isometry)。

保距性,即网络中每一层保存前向传播和反向传播的内积,这在深度 ConvNet 的训练中起到关键作用。

为了说明这一点,该研究采用最简方法表明,只要卷积层和非线性激活函数具备近似保距性,则原版深度 ConvNet 网络(即仅由交替卷积和非线性层构成的网络)也可以训练成功。

具体而言,该研究设计了 Isometric Networks (ISONet),即在训练过程中将卷积层初始化为 identity,将其正则化为近似正交。此外,非线性层是,将 ReLU 函数围绕原点以可学习参数移动得到的 Shifted ReLU (SReLU),具体架构如下图 1 所示:

图 1:ISONet 的基础构造块图示。

ISONet 性能如何

如下表 1 所示,使用 SReLU、Delta 初始化和正交正则化的 Isometric 学习能够在 ImageNet 上训练 ISONet,并且不需要 BatchNorm 和残差连接。可以看到,ISONet 的 Top-1 准确率接近 ResNet。

表 1。

下表 2 为正交稀疏对 34 层 ISONet 的影响,可以看到,当正交系数γ为 1e^-4 时,Top-1 准确率数值最大。

表 2。

为了验证 SReLU 的设计思路,研究者对 SReLU 中参数 b 对 34 层 ISONet 的影响进行了控制变量研究,结果如下表 3 所示:

表 3。

为了验证 isometric 原理在训练深度网络时的有效性,研究者探究了不同层数(18、34、50 和 101)时 ISONet 在 ImageNet 上的 top-1 准确率,结果如下表 4 所示:

表 4。

下表 5 展示了不同层数(18、34、50 和 101)时 R-ISONet 与其他方法在 ImageNet 上的 top-a 准确率,结果表明 R-ISONet 性能与使用有 dropout 的 ResNet 相当,并且优于使用混合正则化(mixup regularization)的 Fixup。

表 5。

最后,研究者进一步在 COCO 数据集上评估了该方法在目标检测和实例分割任务中的性能,结果如下表 6 所示:尽管在相同深度下 R-ISONet 的分类准确率低于 ResNet,但 R-ISONet 的检测和实例分割性能更优。这表明 R-ISONet 模型具有更好的特征迁移能力并且可以减轻 BatchNorm 带来的劣势。

表 6。

理论UC Berkeley深度卷积神经网络
2
相关数据
马毅人物

加州大学伯克利分校电气工程与计算机科学系教授,BAIR成员。研究兴趣:计算机视觉、高维数据的低维模型、可扩展优化和机器学习、智能机器。近期研究低维模型和深度网络之间的关系、高维数据的稀疏表征和低秩近似、高维数据的聚类和分类、3D图像重建。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

推荐文章
暂无评论
暂无评论~