深度学习的大批量优化:76 分钟训练 BERT
来自谷歌,加州大学伯克利分校以及加州大学洛杉矶分校的研究团队发表了一篇名为「深度学习的大批量优化:76 分钟训练 BERT」的研究。该研究中,研究人员首先研究一种有原则的分层适应策略,以使用大型迷你批处理来加快深度神经网络的训练速度。使用这种策略,研究人员开发了一种称为 LAMB 的新的分层自适应大批量优化技术,并提供了 LAMB 和 LARS 的收敛分析,显示了在一般非凸设置下的收敛到固定点。实验结果证明了 LAMB 在各种任务(例如 BERT 和 RESNET-50 训练)中的出色表现,而超参数调整却非常少。特别是,对于 BERT 培训,该优化程序可以使用非常大的 32868 批次大小,而不会降低性能。通过将批处理大小增加到 TPUv3 Pod 的内存限制,BERT 培训时间可以从 3 天减少到只有 76 分钟。