深度残差网络

残差网络是为了解决深度神经网络(DNN)隐藏层过多时的网络退化问题而提出。退化(degradation)问题是指:当网络隐藏层变多时,网络的准确度达到饱和然后急剧退化,而且这个退化不是由于过拟合引起的。

简介

残差网络是为了解决深度神经网络(DNN)隐藏层过多时的网络退化问题而提出。退化(degradation)问题是指:当网络隐藏层变多时,网络的准确度达到饱和然后急剧退化,而且这个退化不是由于过拟合引起的。



假设在浅层网络上叠加与其相同,称之为恒等映射的层,那么即使网络深度增加,其训练误差应该不高于原来的浅层网络。因为直接让一些叠加层去拟合一个潜在的恒等映射函数H(x) = x会比较困难,所以采用一些非线性层,让它们去拟合另一种残差映射F (x) := H(x)-x,而原来的映射则变成H(x) = F(x) + x。Resnet学习的是残差函数F(x) = H(x) - x,优化这种残差映射要比优化原始的映射容易。

H(x) = F(x) + x可以通过前向神经网络和“shortcut connections”来实现,如图中所示。其中“shortcut connections”是指那些被跳过的层。在resnet里,这些“shortcut connections”是恒等映射的,其输出被加到叠加层的输出上。这些“identity shortcut connections”没有引入额外的参数和计算复杂度,整个网络可以用端到端的后向传输SGD训练,采用一般的库即可轻松实现。



此外,和 GoogLeNet 类似,它也在分类层之后连接了一个全局平均池化层。通过这些变化,ResNet 可以学习 152 个层的深层网络。它可以获得比 VGGNet 和 GoogLeNet 更高的准确率,同时计算效率比 VGGNet 更高。ResNet-152 可以取得 95.51% 的 top-5 准确率。


该网络的架构和 VGGNet 类似,主要包括 3x3 的卷积核。因此可以在 VGGNet 的基础上在层之间添加捷径连接以构建一个残差网络。下图展示了从 VGG-19 的部分早期层合成残差网络的过程。

 [描述来源:机器之心; URL:https://www.jiqizhixin.com/articles/2017-12-18-2]

 [描述来源:论文Deep Residual Learning for Image Recognition; URL:https://arxiv.org/pdf/1512.03385.pdf]

发展历史

深度残差网络由于Kaiming He等人凭借ResNet夺得CV多个比赛项目的冠军而获得广泛关注,用这个结构解决了训练极深网络时的退化问题。之后还提出了一系列改进的方法,比如宽残差网络等,并且对其可视化也做了相关研究。深度残差网络在计算机视觉方面非常流行,现在在机器翻译,语音合成,语音识别,阿尔法狗和视频理解等任务中也有其应用。

主要事件

年份事件相关论文/Reference
2016Kaiming He等人提出深度残差网络进行图像识别,取得性能的提升He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).
2016利用单位映射的残差结构解决极深度条件下深度卷积神经网络性能退化的问题He, K., Zhang, X., Ren, S., & Sun, J. (2016, October). Identity mappings in deep residual networks. In European Conference on Computer Vision (pp. 630-645). Springer, Cham.
2016提出宽残差网络,加快残差网络的训练速度Zagoruyko, S., & Komodakis, N. (2016). Wide residual networks. arXiv preprint arXiv:1605.07146.
2017提出一种深度三维残差神经网络进行视频理解任务Qiu, Z., Yao, T., & Mei, T. (2017, October). Learning spatio-temporal representation with pseudo-3d residual networks. In 2017 IEEE International Conference on Computer Vision (ICCV) (pp. 5534-5542). IEEE.
2017提出一种用于单一超分辨率图像的增强型深度残差网络Lim, B., Son, S., Kim, H., Nah, S., & Lee, K. M. (2017, July). Enhanced deep residual networks for single image super-resolution. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops (Vol. 1, No. 2, p. 3).
2017ResNet用于阿尔法狗Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., ... & Chen, Y. (2017). Mastering the game of go without human knowledge. Nature, 550(7676), 354.

发展分析

瓶颈

Resnet是目前CNN结构中的佼佼者,但是与新近提出的网络模型NASNet相比,在达到同等准确度的条件下,resnet需要的计算量还是相对大一些。

[图片来源:论文Learning Transferable Architectures for Scalable Image Recognition;URL:https://arxiv.org/pdf/1707.07012.pdf]

未来发展方向

深度残差网络在以下应用场景中具有出色表现以及较大发展潜力:视觉识别,图像生成,自然语言处理,语音识别以及广告用户群预测等。

Contributor:Yueqin Li

相关人物
任少卿
任少卿
任少卿,Momenta公司研发总监,毕业于中国科技大学与微软亚洲研究院联合培养博士班,曾参与提出适用于物体检测的高效框架Faster RCNN和图像识别算法ResNet,后者相关论文于2016年获得计算机视觉领域顶级会议CVPR 的Best Paper Award。
简介
相关人物