实证研究:网络宽度对随机梯度下降和泛化的影响
本篇论文《The Effect of Network Width on Stochastic Gradient Descent and Generalization: an Empirical Study
》研究了由随机梯度下降发现的最终参数如何受到过参数化的影响。研究者通过增加基线网络中的通道数生成几类模型,并进行大规模超参数搜索以探究测试误差如何依赖于学习率、批大小和网络宽度。研究者发现,最优SGD超参数取决于“归一化噪声尺度”,而这正是批大小、学习率和初始化条件的一种函数。在缺少批归一化的情况下,最优归一化噪声尺度与网络宽度成正比。网络宽度越大,最优噪声尺度越高,测试准确率也就越高。这些观察结果适用于MLP、ConvNet、ResNet以及其他两种不同的参数化方案(“Standard”和“NTK”)。研究者观察到用于ResNet的批归一化也有类似趋势。然而,由于最大的稳定学习率受限,与最优归一化噪声尺度保持一致的最大批大小随宽度的降低而下降。