近来机器学习模型呈现出一种向大模型发展的趋势,模型参数越来越多,但依然具有很好的泛化性能。一些研究者认为泛化性能得益于随机梯度下降算法(SGD)所带来的随机噪声。但最近一篇 ICLR 2022 的投稿《Stochastic Training is Not Necessary for Generalization》通过大量实验证实全批量的梯度下降算法(GD)可以达到与 SGD 不相上下的测试准确率,且随机噪声所带来的隐式正则化效应可以由显式的正则化替代。
https://www.zhihu.com/question/494388033?utm_source=wechat_session&utm_medium=social&utm_oi=56560353017856&utm_content=group3_supplementQuestions&utm_campaign=shareopn
https://www.reddit.com/r/MachineLearning/comments/pziubx/r_stochastic_training_is_not_necessary_for/