机器之心翻译

2019/07/14 12:20

为何Keras中的CNN是有问题的，如何修复它们？

在训练了 50 个 epoch 之后，本文作者惊讶地发现模型什么都没学到，于是开始深挖背后的问题，并最终从恺明大神论文中得到的知识解决了问题。

上个星期我做了一些实验，用了在 CIFAR10 数据集上训练的 VGG16。我需要从零开始训练模型，所以没有使用在 ImageNet 上预训练的版本。

我开始了 50 个 epoch 的训练，然后去喝了个咖啡，回来就看到了这些学习曲线：

模型什么都没学到！

我见过网络收敛得极其缓慢、振荡、过拟合、发散，但这是我第一次发现这种行为——模型根本就没有起任何作用。

因此我就深挖了一下，看看究竟发生了什么。

实验

这是我创建模型的方法。它遵循了 VGG16 的原始结构，但是，大多数全连接层被移除了，所以只留下了相当多的卷积层。

现在让我们了解一下是什么导致了我在文章开头展示的训练曲线。

学习模型过程中出现错误时，检查一下梯度的表现通常是一个好主意。我们可以使用下面的方法得到每层梯度的平均值和标准差：

然后将它们画出来，我们就得到了以下内容：

使用 Glorot 函数初始化的 VGG16 梯度的统计值

呀... 我的模型中根本就没有梯度，或许应该检查一下激活值是如何逐层变化的。我们可以试用下面的方法得到激活值的平均值和标准差：

然后将它们画出来：

使用 Glorot 函数进行初始化的 VGG16 模型的激活值

这就是问题所在！

提醒一下，每个卷积层的梯度是通过以下公式计算的：

其中Δx 和Δy 用来表示梯度∂L/∂x 和∂L/∂y。梯度是通过反向传播算法和链式法则计算的，这意味着我们是从最后一层开始，反向传递到较浅的层。但当最后一层的激活值接近零时会发生什么呢？这正是我们面临的情况，梯度到处都是零，所以不能反向传播，导致网络什么都学不到。

由于我的网络是相当简约的：没有批归一化，没有 Dropout，没有数据增强，所以我猜问题可能来源于比较糟糕的初始化，因此我拜读了何恺明的论文——《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》

论文链接：https://arxiv.org/pdf/1502.01852.pdf

下面简要描述一下论文内容。

初始化方法

初始化始终是深度学习研究中的一个重要领域，尤其是结构和非线性经常变化的时候。实际上一个好的初始化是我们能够训练深度神经网络的原因。

以下是何恺明论文中的关键思想，他们展示了初始化应该具备的条件，以便使用 ReLU 激活函数正确初始化 CNN。这里会需要一些数学知识，但是不必担心，你只需抓住整体思路。

我们将一个卷积层 l 的输出写成下面的形式：

接下来，如果偏置值被初始化为 0，再假设权重 w 和元素 x 相互独立并且共享相同的分布，我们就得到了：

其中 n 是一层的权重数目（例如 n=k²c）。通过独立变量的乘积的方差公式：

它变成了：

然后，如果我们让权重 w 的均值为 0，就会得到：

通过 König-Huygens 性质：

最终得到：

然而，由于我们使用的是 ReLU 激活函数，所以就有了：

因此：

这就是一个单独卷积层的输出的方差，到那时如果我们想考虑所有层的情况，就必须将它们乘起来，这就得到了：

由于我们做了乘积，所以现在很容易看到如果每一层的方差不接近于 1，网络就会快速衰减。实际上，如果它比 1 小，就会快速地朝着零消散，如果比 1 大，激活的值就会急剧增长，甚至变成一个你的计算机都无法表示的数字（NaN）。因此，为了拥有表现良好的 ReLU CNN，下面的问题必须被重视：

作者比较了使用标准初始化（Xavier/Glorot）[2] 和使用它们自己的解初始化深度 CNN 时的情况：

在一个 22 层的 ReLU CNN 上使用 Glorot（蓝色）初始化和 Kaiming 的初始化方法进行训练时的对比。使用 Glorot 初始化的模型没有学到任何东西。

这幅图是不是很熟悉？这就是我在文章开始向你们展示的图形！使用 Xavier/Glorot 初始化训练的网络没有学到任何东西。

现在猜一下 Keras 中默认的初始化是哪一种？

没错！在 Keras 中，卷积层默认是以 Glorot Uniform 分布进行初始化的：

所以如果我们将初始化方法改成 Kaiming Uniform 分布会怎么样呢？

使用 Kaiming 的初始化方法

现在来创建我们的 VGG16 模型，但是这次将初始化改成 he_uniform。

在训练模型之前，让我们来检查一下激活值和梯度。

所以现在，使用 Kaiming 的初始化方法时，我们的激活拥有 0.5 左右的均值，以及 0.8 左右的标准差。

可以看到，现在我们有一些梯度，如果希望模型能够学到一些东西，这种梯度就是一种好现象了。

现在，如果我们训练一个新的模型，就会得到下面的学习曲线：

我们可能需要增加一些正则化，但是现在，哈哈，已经比之前好很多了，不是吗？

结论

在这篇文章中，我们证明，初始化是模型中特别重要的一件事情，这一点你可能经常忽略。此外，文章还证明，即便像 Keras 这种卓越的库中的默认设置，也不能想当然拿来就用。

参考文献和扩展阅读：

[1]: Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification：https://arxiv.org/pdf/1502.01852.pdf

[2]: Understanding the difficulty of training deep feedforward neural networks：http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf

[3]: 吴恩达课程：https://www.youtube.com/watch?v=s2coXdufOzE

原文地址：https://towardsdatascience.com/why-default-cnn-are-broken-in-keras-and-how-to-fix-them-ce295e5e5f2

工程Keras卷积神经网络模型训练

相关技术

机器人操作系统

所属机构

百度研究院

来源：个人网站 Ng, A. Y.Twitter

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

激活函数技术

在计算网络中，一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。一种函数（例如 ReLU 或 S 型函数），用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。

来源：维基百科 Google ML glossary

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

Dropout技术

神经网络训练中防止过拟合的一种技术

来源：ImageNet Classification with Deep Convolutional

VGG技术

2014年，牛津大学提出了另一种深度卷积网络VGG-Net，它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野，而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好，常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量，VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层，每一层都有4096个神经元，可想而至这之间的参数会有多么庞大。

来源：7大类深度CNN架构创新综述

学习曲线技术

在机器学习领域，学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

来源：Wikipedia

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

反向传播算法技术

反向传播（英语：Backpropagation，缩写为BP）是“误差反向传播”的简称，是一种与最优化方法（如梯度下降法）结合使用的，用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法，用来更新权值以最小化损失函数。在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算（并缓存）每个节点的输出值，然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

来源：维基百科 Google ML glossary

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

来源：Wikipedia

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

链式法则技术

是求复合函数导数的一个法则, 是微积分中最重要的法则之一。

来源：Wikipedia

批归一化技术

批归一化（Batch Normalization，BN）由谷歌于2015年提出，是一个深度神经网络训练的技巧，它不仅可以加快模型的收敛速度，还能在一定程度上缓解深层网络中的“梯度弥散”问题，从而使得训练深层网络模型更加容易和稳定。目前BN已经成为几乎所有卷积神经网络的标配技巧了。从字面意思看来Batch Normalization（简称BN）就是对每一批数据进行归一化。

来源：相关介绍博客

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia