不用归一化也能训练深度残差网络,新型初始化方法Fixup了解一下
在论文《Fixup Initialization: Residual Learning Without Normalization》中,研究者提出了一种新型初始化方法 fixed-update initialization (Fixup),试图在训练开始时通过恰当地调整初始化来解决梯度爆炸和梯度消失问题。实验证明,使用Fixup训练残差网络与使用归一化训练残差网络一样稳定,甚至在训练10000层的深度网络时也是如此。此外,经过恰当的正则化后,Fixup使残差网络在不使用归一化的情况下也能在图像分类和机器翻译任务中达到当前最优性能。