NIPS 2018:MIT新研究参透批归一化原理
批归一化(BatchNorm)是一种广泛采用的技术,用于更快速、更稳定地训练深度神经网络(DNN)。尽管应用广泛,但 BatchNorm 有效的确切原因我们尚不清楚。人们普遍认为,这种效果源于在训练过程中控制层输入分布的变化来减少所谓的「内部协方差偏移」。但MIT的研究者近日发表论文《How Does Batch Normalization Help Optimization?》,研究发现二者并无关系。研究者证明 BatchNorm 以一种基础的方式影响着网络的训练:它使相关优化问题的解空间更平滑了。这确保梯度更具预测性,从而允许使用更大范围的学习率,实现更快的网络收敛。该研究提供这些发现的经验性证明和理论依据。据悉,该论文已被 NIPS 2018 接收。