感受野 | 机器之心

简介

在卷积神经网络(CNN)中，感受野是输入空间中影响网络特定单元的区域。此输入区域不仅可以是网络的输入，还可以是网络中其他单元的输出，因此可以相对于我们所考虑的输入以及相对于我们所考虑的作为此输入区域的“接收器”的单元来计算此感受野。通常，当提到接收场项时，它考虑与网络输入（即，网络的输入图像）相关的网络的最终输出单元（即，二进制分类任务上的单个单元）。

不难看出，在CNN中，可以采用不同的方法来增加感受野，例如:叠加更多的层（深度）、二次采样（合并）、滤波膨胀（膨胀卷积）等。理论上，当叠加更多的层时，可以线性地增加接收场，然而，在实践中，事情并不像我们想象的那样简单，如Luo，Wenjie等人的工作所示。在文章《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》中，他们介绍了“有效感受野”的概念，记为ERF；这个概念背后的直觉是，不是所有的像素在感受野的贡献一样输出单位的响应。当进行正向传递时，我们可以看到中央接收场像素可以使用许多不同的路径将它们的信息传播到输出，因为它们是多个输出单元计算的一部分。

在下图中，可以看到左侧是输入像素，使用3×3卷积滤波器从输入像素计算出一个特征映射，最后再进行3×3滤波后得到输出。左侧图像中像素内的数字表示该像素作为卷积步骤（滤波器的每个滑动步骤）的一部分的次数。我们可以看到，像中心像素这样的一些像素将通过网络中的许多不同路径传播它们的信息，而边界上的像素则沿着单个路径传播。

图一：使用3×3滤波器，跨3个不同层的感受野。

从上面的图像来看，有效的感受野对最终输出计算的影响更像是高斯分布，而不是均匀分布，这并不奇怪。实际上更有趣的是，这个感受野在训练过程中是动态变化的。与边界像素相比，在反向传播中，中心像素将具有更大的梯度幅度。

在Luo，Wenjie等人的文章中，他们设计了一种方法，通过计算代表每个像素x_{i，j}对输出y的贡献的量\frac{\partial y}{\partial x_{i, j}}来量化对网络的每个输入像素的影响。

在论文中，他们使用多种不同的架构、激活等来进行有效感受野的可视化实验。这里复制一些最有趣的架构:

图二摘自Luo，Wenjie等人的论文“Deep Convolutional Neural Networks中有效感受野的理解”。

从本文的图二中可以看到，它们比较了不同层数、初始化和激活的效果，结果非常惊人。可以清楚地看到高斯分布和RELU激活增加了稀疏性。

图三-使用了CIFAR-10和CAMVID数据集来训练网络的一些比较-“理解深卷积神经网络中的有效感受野”。

可以看到，有效感受野的大小是非常动态的，并且在训练之后它被大幅度地增加，这意味着，如作者所述，在训练开始时可以使用更好的初始化方案来增加感受野。他们实际上开发了一个不同的初始化方案，能够获得30%的训练速度提升，然而，这些结果并不一致。

图四：中央凹视野下的阅读活动。图片来自http://www.learning-systems.ch。

同样有趣的是，有效感受野与人眼的中央凹视觉有非常密切的关系，它产生锐利的中央视觉，即眼底中存在的锥体细胞高密度区（如下图所示）的效果。

图五：人眼中央凹区域。图片来自http://eyetracking.me。

我们中心敏锐的视觉也会像有效的感受野一样迅速衰减，这与高斯分布非常相似。令人惊讶的是，这种效果也自然存在于CNN网络。

注释：有些鸟类，如蜂鸟，做复杂的空中运动，有两个而不是一个中央凹，这意味着他们有一个尖锐的准确的视觉，不仅在中央区域，而且在两侧。

【来源：http://blog.christianperone.com/2017/11/the-effective-receptive-field-on-cnns/ 】

发展历史

描述

最早使用感受野一词的科学家之一是英国生理学家查尔斯·斯科特·谢灵顿爵士（Charles Scott Sherrington），他在1906年把它纳入了他对狗的抓伤反射的讨论中。大约在同一时间，一些研究人员正在研究眼睛和视神经对视觉刺激的电位反应。虽然这些研究为感官感受的生理学提供了一些洞察力，但直到1938年现代的感受野概念才出现。那一年，美国生理学家Haldan Keffer Hartline成为第一个从脊椎动物眼睛的单一视神经纤维中分离和记录电反应的人。

Deep CNN中的一个基本概念是网络中某一层单元的感受野。在完全连接的网络中，每个单元的值取决于网络的整个输入，而卷积网络中的一个单元仅取决于输入的一个区域。输入中的该区域是该单元的接收场。感受野的概念对于理解和评价深度CNN的工作非常重要。由于在单元的接收场之外的输入图像中的任何地方都不影响该单元的值，因此有必要仔细地控制感受野，以确保其覆盖整个相关图像区域。在许多任务中，特别是在语义图像分割、立体视觉和光流估计等密集预测任务中，对输入图像中的每个像素进行预测时，每个输出像素都必须有一个大的感受野，这样在进行预测时就不会遗漏重要的信息。

一个单位的感受野大小可以通过多种方式增加。一种选择是堆叠更多的层以使网络更深，这理论上线性地增加了接收场的大小，因为每个额外的层将接收场的大小增加了内核大小。另一方面，二次抽样会成倍地增加感受野的大小。像VGG网络和残差网络这样的现代Deep CNN体系结构使用这些技术的组合。

在工作《Show, attend and tell: Neural image caption generation with visual attention.》中，关于感受野的这种高斯假设是在没有正当理由的情况下使用的。这个结果进一步导致了一些有趣的发现，特别是感受野中的有效面积，在论文《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks 》称之为有效感受野，只占理论感受野的一小部分，因为高斯分布通常从中心迅速衰减。

因此，《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks 》发现并非感受野中的所有像素对输出单元的响应都有同样的贡献。直观地说，很容易看出，位于接收场中心的像素对输出的影响要大得多。在前向通路中，中心像素可以通过许多不同的路径将信息传播到输出，而在接收场的外部区域中的像素具有非常少的路径来传播其影响。在后向通路中，来自输出单元的梯度在所有路径上传播，因此来自该输出的梯度的中心像素具有大得多的幅度。该文章发展的有效感受野理论也与一些经验观察有很好的相关性。一个这样的经验观察是，目前常用的随机初始化导致一些深层CNN从一个小的有效感受野开始，然后在训练期间增长。这可能表示初始化偏差很大。

【来源：
AlphaGo之后，DeepMind重磅推出AlphaFold：基因序列预测蛋白质结构】

主要事件

年份	事件	相关论文/Reference
1959	Hubel, D. H., 研究猫纹状皮层单个神经元的感受野	Hubel, D. H., & Wiesel, T. N. (1959). Receptive fields of single neurones in the cat's striate cortex. The Journal of physiology, 148(3), 574-591.
2015	Huang, G. B., Bai, Z.讨论了基于机器学习的感受野	Huang, G. B., Bai, Z., Kasun, L. L. C., & Vong, C. M. (2015). Local receptive fields based extreme learning machine. IEEE Computational Intelligence Magazine, 10(2), 18-29.
2016	Jacobsen, J. H., van Gemert, J., Lou, Z., & Smeulders, A. W.提出了CNN中感受野的结构	Jacobsen, J. H., van Gemert, J., Lou, Z., & Smeulders, A. W. (2016). Structured receptive fields in cnns. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2610-2619).
2016	Luo, W., Li, Y., Urtasun, R., & Zemel, R.基于CNN提出了有效可视野	Luo, W., Li, Y., Urtasun, R., & Zemel, R. (2016). Understanding the effective receptive field in deep convolutional neural networks. In Advances in neural information processing systems (pp. 4898-4906).
2017	Dai, J., Qi, H., Xiong, Y., Li,提出 Deformable convolutional networks	Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., & Wei, Y. (2017). Deformable convolutional networks. CoRR, abs/1703.06211, 1(2), 3.

发展分析

瓶颈

卷积神经网络在许多任务上都取得了成功，但其仍缺乏足够的理论支撑，我们无法系统的、完备的对其表现进行分析。

未来发展方向

目前有不少研究集中在对卷积神经网络的学习过程，如分析其神经元对含有不同特征的图片的反应。此外，卷积神经网络的应用范围也越来越广，或许在卷积神经网络还将在我们没有预见到的领域获得成功。

Contributor: Ruiying Cai

简介