现代机器学习在很大程度上依赖于优化,为计算机视觉、自然语言处理和强化学习等领域的挑战性问题提供有效的答案。实现快速收敛和高质量解决方案的难度很大程度上取决于所选择的学习率。具有大量代理的应用程序(每个代理都有其优化器)使得学习率调整变得更加困难。
一些手动调整的优化器表现良好,但这些方法通常需要专业技能和艰苦的工作。因此,近年来,「无参数」自适应学习率(adaptive learning rate)方法,如 D-Adaptation 方法,在无学习率优化中得到了广泛的应用。
三星 AI 中心和 Meta AI 研究小组在 D-Adaptation 方法中引入了 Prodigy 和 Resetting 两种独特的变化,提高了 D-Adaptation 方法的最坏情况非渐近收敛速度,从而提高了收敛速度和优化输出。
为了提高 D-Adaptation 方法的最坏情况非渐近收敛速度,作者对原方法进行了两个新的改进。他们通过调整自适应学习率方法来提高算法的收敛速度和解的质量性能。对于任何调整到解常数 D 的距离的方法,都建立了一个下界来验证所提出的调整。他们进一步证明,相对于其他具有指数有界迭代增长的方法,增强方法在常数因子范围内是最坏情况最优的。然后进行了大量的测试,以表明增加的 D-Adaptation 方法可以快速调整学习率,从而获得更好的收敛速度和优化结果。
该团队的创新策略包括使用类似 Adagrad 的步长来调整 D-Adaptation 的误差项。研究人员现在可以放心地采取更大的步骤,同时仍然保持主要误差项不变,从而使改进的方法更快地收敛。当步长中的分母变得太大时,算法会变慢。因此,为了以防万一,他们还在梯度旁边添加了权重。
研究人员在实证研究中使用所提出的技术来解决凸逻辑回归和严峻的学习挑战。在多项研究中,Prodigy 的采用速度比任何其他已知方法都要快;带重置的 D-Adaptation 达到与 Prodigy 相同的理论速率,同时采用比 Prodigy 或 D-Adaptation 简单得多的理论。此外,所提出的方法通常优于 D-Adaptation 算法,并且可以达到与手动调整 Adam 相当的测试精度。
最近提出的两种方法已经超越了最先进的学习率自适应 D-Adaptation 方法。大量实验证据表明,Prodigy 是一种加权 D-Adaptation 变体,比现有方法更具适应性。结果表明,第二种方法,即带有重置的 D-Adaptation,可以用简单得多的理论与 Prodigy 的理论速度相匹配。
参考内容:https://www.marktechpost.com/2023/06/25/researchers-from-meta-ai-and-samsung-introduce-two-new-ai-methods-prodigy-and-resetting-for-learning-rate-adaptation-that-improve-upon-the-adaptation-rate-of-the-state-of-the-art-d-adaptation-method/