自适应学习率的方差及Adam的新变体——RAdam
对于 RMSprop 和 Adam 等自适应随机优化算法来说,学习率热身启发式(warmup heuristic)在稳定训练、加速收敛和提升泛化方面取得了巨大成功。在论文《On the Variance of the Adaptive Learning Rate and Beyond》中,研究者将详细探究学习率热身启发式的运行机制。为了找出热身背后的理论基础,研究者确定一个自适应学习率问题(即它在初期具有问题上的巨大方差),建议热身作为方差缩减技术,并提供实证和理论论证来验证他们的假设。通过引入术语来纠正自适应学习率的方差,研究者进一步提出了 Adam 的一种新变体——RAdam。研究者在图像分类、语言建模和神经机器翻译方面的大量实验结果验证了他们的直觉判断,并证明了所提出方法的有效性和鲁棒性。