CMU、UC 伯克利新论文研究,「梯度爆炸问题去神秘化 - 定义,普遍性,影响,起源,权衡和解决方法」
近日,一篇由CMU及UC伯克利关于梯度爆炸问题的研究论文引机器学习社群关注,以下为论文概述:人们认为,诸如 Adam,批标准化以及最近的 SELU 非线性等技术可以「解决」梯度爆炸问题,但我们证明,情况并非如此,并且在一系列流行的 MLP 体系结构中,存在梯度爆炸而且它们在理论上和实践上都限制了可以有效训练网络的深度。我们解释了为什么会发生梯度爆炸并突出显示了崩溃域问题,该问题可能在避免梯度爆炸的体系结构中出现。ResNets 的梯度明显较低,因此可以避免梯度爆炸问题,从而可以有效地训练更深的网络。我们证明这是勾股方程的直接结果。通过注意到任何神经网络都是残差网络,我们设计了残差技巧,这揭示了引入跳过连接在数学上简化了网络,而这种简单性可能是其成功的主要原因。