重新思考批归一化和Dropout在深度神经网络训练中的使用
在论文《Rethinking the Usage of Batch Normalization and Dropout in the Training of Deep Neural Networks》中,研究者提出一种提升神经网络训练效率的新技术。论文基于一个很棒的观点,即白化(whitening)神经网络的输入能够实现较快的收敛速度。考虑到一个众所周知的事实,即独立组件必须进行白化,他们在每个权重层之前引入一个新的独立组件(IC)层,IC层的输入也将更加独立。但是,确定独立组件是一项计算量很大的任务。为了克服这一挑战,研究者提出结合批归一化和Dropout两种常见的方法来实现IC层。这以一种新方式实现,由此他们可以审慎证明Dropout能够呈平方地减少互信息,并且线性降低与dropout层参数p相关的任何一对神经元之间的相关性。IC层的实现使研究者重新思考神经网络设计中的常见做法。举例而言,BatchNorm不应置于ReLU之前,因为ReLU的非负响应将使得权重层以次优方法更新。另外,将BatchNorm和Dropout结合成一种IC层能够实现更好的性能。