论文链接:https://arxiv.org/pdf/2010.07468.pdf
论文页面:https://juntang-zhuang.github.io/adabelief/
代码链接:https://github.com/juntang-zhuang/Adabelief-Optimizer
![](https://image.jiqizhixin.com/uploads/editor/7e90923d-3e37-4a51-b25f-192aa1888dc3/640.png)
![](https://image.jiqizhixin.com/uploads/editor/41a91c84-36e1-4ce8-b0c9-022ebc702a81/640.png)
![](https://image.jiqizhixin.com/uploads/editor/e3f56aba-b7e2-4225-af5f-79f5473c5e2b/640.png)
![](https://image.jiqizhixin.com/uploads/editor/42b4f940-5084-45d5-b4c6-d86327c2ba35/640.png)
![](https://image.jiqizhixin.com/uploads/editor/a308bb4f-6bfe-4e3b-b346-68c57c91a6ef/640.png)
![](https://image.jiqizhixin.com/uploads/editor/f9fb0347-aae2-4383-8cb2-154c42902f6b/640.png)
![](https://image.jiqizhixin.com/uploads/editor/d18e6283-ea2f-4a57-9130-664a7eb2d099/640.png)
![](https://image.jiqizhixin.com/uploads/editor/f779ee01-ae68-423c-8a0c-1b6549364bf1/640.png)
![](https://image.jiqizhixin.com/uploads/editor/e7bbd4c9-57de-4be8-9548-f7606925301b/640.png)
![](https://image.jiqizhixin.com/uploads/editor/6d53d71c-604a-467b-aea6-8d161b2dd276/640.png)
![](https://image.jiqizhixin.com/uploads/editor/93ccabf3-ea26-468e-ba97-31c19f010895/640.png)
![](https://image.jiqizhixin.com/uploads/editor/2fbc7450-bdd8-4c13-bbad-9488de789a38/640.png)
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
在一篇 NeurIPS 2020 Spotlight 论文中,来自耶鲁大学等机构的研究者提出了一种新型优化器,可以像 Adam 一样快速收敛,准确率媲美 SGD ,还能稳定训练 GAN 。
论文链接:https://arxiv.org/pdf/2010.07468.pdf
论文页面:https://juntang-zhuang.github.io/adabelief/
代码链接:https://github.com/juntang-zhuang/Adabelief-Optimizer
深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。
2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。
在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。
在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长