《神经网络和深度学习》系列文章四十二:其他深度学习的障碍

出处: Michael Nielsen的《Neural Network and Deep Learning》,本节译者:朱小虎 、张广宇。

目录

1、使用神经网络识别手写数字

2、反向传播算法是如何工作的

3、改进神经网络的学习方法

4、神经网络可以计算任何函数的可视化证明

5、为什么深度神经网络的训练是困难的

  • 梯度消失问题
  • 什么导致了梯度消失问题?神经网络中的梯度不稳定性
  • 在更加复杂网络中的不稳定性梯度
  • 其他深度学习的障碍

6、深度学习

本章我们已经聚焦在消失的梯度上,并且更加一般地,不稳定梯度——深度学习的一大障碍。实际上,不稳定梯度仅仅是深度学习的众多障碍之一,尽管这一点是相当根本的。当前的研究集中在更好地理解在训练深度神经网络时遇到的挑战。这里我不会给出一个详尽的总结,仅仅想要给出一些论文,告诉你人们正在寻觅探究的问题。

 

首先,在 2010 年 Glorot 和 Bengio 1发现证据表明 sigmoid函数的选择会导致训练网络的问题。特别地,他们发现 sigmoid 函数会导致最终层上的激活函数在训练中会聚集在 0,这也导致了学习的缓慢。他们的工作中提出了一些取代 sigmoid 函数的激活函数选择,使得不会被这种聚集性影响性能。

 

第二个例子,在 2013 年 Sutskever, Martens,Dahl 和 Hinton 2 研究了深度学习使用随机权重初始化和基于 momentum 的 SGD 方法。两种情形下,好的选择可以获得较大的差异的训练效果。

这些例子告诉我们,“什么让训练深度网络非常困难”这个问题相当复杂。本章,我们已经集中于深度神经网络中基于梯度的学习方法的不稳定性。结果表明了激活函数的选择,权重的初始化,甚至是学习算法的实现方式也扮演了重要的角色。当然,网络结构和其他超参数本身也是很重要的。因此,太多因子影响了训练神经网络的难度,理解所有这些因子仍然是当前研究的重点。尽管这看起来有点悲观,但是在下一章中我们会介绍一些好的消息,给出一些方法来一定程度上解决和迂回所有这些困难。

注:

1.  Understanding  the difficulty of training deep feedforward neural networks (http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf ),作者为 Xavier   Glorot 和 Yoshua Bengio(2010)。还可看看 Efficient BackProp ( http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf ) 论文中前面的关于 S 型函数的讨论,作者为 Yann LeCun, Léon  Bottou, Genevieve Orr 和 Klaus-Robert Müller(1998)。


2. On the importance of initialization and momentum in deep learning (http://www.cs.toronto.edu/~hinton/absps/momentum.pdf ),作者为 Ilya  Sutskever,James Martens, George Dahl 和 Geoffrey Hinton (2013)。


本文来源于哈工大SCIR

原文链接点击即可跳转

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

工程理论书籍神经网络深度学习哈工大
暂无评论
暂无评论~