李诗萌 路雪编译

为卷积模型执行加入循环和远程反馈,更完整地拟合生物视觉

与当前的机器视觉行为执行仅涉及前馈过程不同,人类及灵长类动物的视觉行为执行包含前馈、反馈和时间预测等多种过程的整合。也就是说,当前的机器视觉仅能从低级图像属性逐层计算传播到高层得到模型输出,而现实应用中,即使像分类、目标检测这样的任务也需要考虑复杂的高级概念,例如功能、语境等。为此,来自斯坦福、MIT、谷歌大脑等机构的研究者借鉴了灵长类动物的大脑神经结构,提出了在内部整合了循环和远程反馈结构的新型卷积循环模型 ConvRNN,实验表明,该架构能以更少的参数达到更深层前馈 ResNet 的性能,并更好地拟合灵长动物的视觉过程,说明在执行不同复杂视觉行为时大脑的循环连接扮演着重要角色。

大脑的感觉系统必须要在复杂的有噪声感觉数据中检测出有意义的模式 [James, 1890]。视觉环境可以揭示对象的积极或消极性质,包括食物种类、危险标志以及令人记忆犹新的社会伙伴。这些对象在每一时刻的位置、姿势、对比度、背景以及前景都各不相同。因此,从低级图像属性中进行目标检测是很不容易的 [Pinto 等人,2008]。灵长类动物的视觉系统会对相关的高级属性进行编码,以便指导行为 [Majaj 等人,2015]。这一过程可被建模为把一张图从原始像素值转换为内部表征 [DiCarlo 等人,2012]。好的编码算法能够将任务的相关特征提供给简单的解码过程,如线性分类器 [Hung 等人,2005,Majaj 等人,2015]。

近期的研究工作表明,基于任务优化的深度卷积神经网络(CNN)是灵长类动物大脑视觉编码的精准量化模型 [Yamins 等人,2014,Khaligh-Razavi 和 Kriegeskorte,2014,Güçlü 和 van Gerven,2015]。目前与其他模型类别相比,用于识别 ImageNet 目标的 CNN 可以更好地解释视觉系统中神经元的平均时间响应(temporally-averaged response)。来自底层、中层、高层的卷积层的模型单元分别提供了发生在早期(V1 区 [Khaligh-Razavi 和 Kriegeskorte,2014,Cadena 等人,2017])、中期(V4 区 [Yamins 等人,2014])和更高的视觉皮层区域(下颞叶皮质,即 IT 区,[Khaligh-Razavi 和 Kriegeskorte,2014,Yamins 等人,2014])的神经诱发反应的已知最好线性预测值。

但灵长类动物的视觉系统还有不能用前馈 CNN 建模的其他解剖结构。这些结构包括每个皮层区域内密集的局部循环连接以及不同区域间的远程连接,例如从视觉层次的较高部分到较低部分的反馈 [Gilbert 和 Wu,2013]。灵长类动物大脑的视觉系统中「循环」(recurrence)的功能尚未得到充分研究。一些猜想认为循环「填补」了缺失数据 [Spoerer 等人,2017,Michaelis 等人,2018,Rajaei 等人,2018,Linsley 等人,2018],如被其他物体遮挡住的物体部分;一些猜想认为循环通过自上而下的注意力特征的细化「锐化」了表征,以便对特定的刺激因素或特定任务的性能进行解码 [Gilber 和 Wu,2013,Lindsay,2015,McIntosh 等人,2017,Li 等人,2018];一些猜想认为循环允许大脑「预测」未来的刺激信号(如电影的帧)[Rao 和 Ballard,1999,Lotter 等人,2017,Issa 等人,2018];还有一些猜想认为循环「扩展」了前馈计算,这意味着展开的循环网络等价于通过多次重复变换来保存神经元(和可学习参数)的更深层前馈网络 [Khaligh-Razavi 和 Keirgeskorte,2014,Liao 和 Poggio,2016,Zamir 等人,2017,Leroux 等人,2018]。

因为现有的神经数据无法排除这些可能性,所以计算模型可能有助于对这些假设进行评估。我们试着将来自前馈 CNN 和神经信号时间平均值的目标驱动建模方法 [Yamins 和 DiCarlo,2016,Mante 等人,2013,Shi 等人,2018] 扩展到卷积循环神经网络(ConvRNN)和神经动态(neural dynamics)。具体来说,我们假设给 CNN 添加循环和反馈有助于这些模型执行行为相关任务(ethologically-relevant task),并且这样的增强网络可以更好地解释视觉路径中神经响应的精细时间轨迹。

尽管添加了循环结构的增强 CNN 已用于解决相对简单的遮挡变形和预测未来的任务 [Spoerer 等人,2017,Lotter 等人,2017],但这些模型既无法泛化到前馈 CNN 执行的较困难任务(如识别 ImageNet 数据集中的目标),也无法像 ImageNet 优化的 CNN 一样对神经响应作出解释。在本文的撰写过程中,在 ImageNet 中进行目标识别是已知仅有的可以产生与视觉皮层神经元激活模式相仿的 CNN 激活模式的任务 [Khaligh-Razavi 和 Kriegeskorte,2014,Yamins 等人,2014,Cadena 等人,2017]。事实上,由于多样性和复杂性,ImageNet 包含许多可以根据上述假设(例如严重遮挡、出现多个前景目标等)利用循环过程的图像。此外,近期一些针对 ImageNet 的最有效方法(如 ResNet 模型 [He 等人,2016])是在多个层上重复相同的架构模式,这说明它们可能与较浅的循环网络的展开近似 [Liao 和 Poggio,2016]。因此我们试着探索循环是否可以改善在 ImageNet 数据集上的分类性能。尽管其他研究是将 CNN 的输出作为 RNN 的输入来解决目标分割等视觉任务 [McIntosh 等人,2017],但我们选择将循环架构整合进 CNN 中,因为这样的架构在神经科学文献中很普遍。

我们发现标准的循环单元(例如标准 RNN 和 LSTM [Elman,1990,Hochreiter 和 Schmidhuber,1997])不会使 ImageNet 性能提升至超越参数匹配的前馈基线的水平。但我们设计了新的局部单元架构,该架构包含用于将循环架构集成到 CNN 中的结构属性。为了在广泛的模型架构空间中更好地识别模型架构,我们在数以千计的模型上进行了自动搜索,这些模型的局部循环单元和远程反馈连接有所不同。引人注目的是我们在这个过程中发现了在传统 RNN 中从未发现过的新的循环模式:例如,最成功的模型会用深度可分离的卷积专门处理局部循环连接,从而对网络中类似 ResNet 的前馈骨干网络进行多重门控。此外,小部分远程反馈连接可以提升任务性能,尽管大多数只具备中性或负面影响。总的来讲,这种搜索产生的循环模型在仅使用 75% 的参数时,表现与更深层的前馈架构(ResNet-34)差不多。最后,在比较循环模型特征和灵长类动物视觉系统中的神经响应后,我们发现基于 ImageNet 优化的 ConvRNN 提供了以 10ms 分辨率跨越中高层视觉皮层区域的精准量化的神经动态模型。这些结果提供了一个视觉系统中的局部和远程循环如何调整以适应在灵长类动物的视觉系统中执行目标识别的模型。

图 1:模型架构示意图。卷积循环网络(ConvRNN)是将局部循环单元和远程反馈连接组合在一起添加到 CNN 的骨干网络上。在我们的实现中,沿着黑色或红色箭头进行的传播需要一个时间步(10 ms)来模拟皮质层间的传导延迟。

图 2:局部循环单元架构的比较。(a)ConvRNN 单元间的架构差异。标准 ResNet 和标准 RNN 单元都有旁路(见论文)。LSTM 单元有门控,在图中用 T 字连接符表示,但是没有旁路。reciprocal 门控单元两个都有。(b)多种 ConvRNN 和前馈模型随着参数数量变化产生的性能变化。彩色的点将相应的 RNN 单元合并到 6 层前馈架构(「FF」)中。「T」表示展开的步数。经过超参数优化的 LSTM ConvRNN 和 reciprocal 门控单元 ConvRNN 通过黑线连接到未优化版本。

图 3:ConvRNN 的超参数化和搜索结果。(a)局部循环单元的超参数化。箭头表示输入单元、隐藏状态和输出之间的连接。问号表示可选连接,可能是常规或深度可分离的卷积,可选择卷积核大小。层(l-1 out、l in 和 l out)之间的反馈连接始终存在。带有问号的方框表示可选择 sigmoid 或 tanh 非线性激活函数、加法,或恒等连接(identity connection,像 ResNet 中一样)这样的多重门控。最终,从 l+k out 层开始的远程反馈连接可能会进入局部单元输入、隐藏状态或输出。(b)ConvRNN 搜索结果。每个蓝色的点都表示一个模型,采样自训练了 5 个 epoch 的超参数空间。橙色的线是最后 50 个模型的平均性能。红色的线表示搜索过程中该点表现最好的模型。

图 4:最优的局部循环单元和全局反馈连接。(a)搜索过程中表现最好的模型的 RNN 单元架构。红色的线表示每个最好的独特模型(3b 中的红线)所选择的超参数(连接和与滤波器大小)。K*K 表示卷积,dsK*K 表示卷积核大小为 K*K 的深度可分离卷积。(b)搜索中的远程反馈连接。(顶部)每条轨迹表示 100 个样本窗口中有特定反馈连接的模型的比例。(底部)每一个条表示具备给定反馈的模型与不具备该反馈的模型之间的性能中值差异。颜色与上面图中相同的反馈颜色一致。(c)在 128px 大小的 ImageNet 上完整训练的模型的性能。我们比较了 ResNet-18、18 层前馈基础模型(basenet)、搜索中有或没有全局反馈连接的中位模型,以及它的最小展开控制(T=12)的性能。「Random Model」是从模型搜索的初始随机阶段随机选取的。每个长条上方显示的是参数数量(单位:百万)。ResNet 模型的训练方法与 [He 等人,2016] 相同,但与 ConvRNN 相比,ResNet 是用 128px 大小的图像训练的。

图 5:用 ConvRNN 对灵长类动物腹侧流神经动态进行建模。(a)用于拟合神经动态的 ConvRNN 模型在 4 到 10 层具备局部循环单元和远程反馈(红色箭头)。(b)与大脑的腹侧层次一致,V4 的大多数单元都与第 6 层的特征最佳匹配;pIT 匹配第 7 层;cIT/aIT 匹配第 8/9 层。(c)与神经动态拟合的模型特征与这些响应的噪声上限很接近。y 轴表示在 held-out 图像上预测值和真实的响应值之间相关单元的中值。

论文:Task-Driven Convolutional Recurrent Models of the Visual System

论文地址:https://arxiv.org/pdf/1807.00053.pdf

摘要:前馈卷积神经网络(CNN)是针对像 ImageNet 这样的目标分类任务的当前最佳模型。此外,它们是灵长类动物大脑视觉系统中神经元平均时间响应的精准量化模型。但是生物的视觉系统有两个独一无二的、普通 CNN 没有的结构特征:皮质区域内的局部循环和从下游区域到上游区域的远程反馈。我们在此探索了循环在改善分类表现中所扮演的角色。我们发现深度 CNN 中标准形式的循环结构(标准 RNN 和 LSTM)在 ImageNet 任务中表现得不是很好。相比之下,包含两个架构特征(旁路和门控)的自定义单元能大大提高任务的准确率。我们将这些设计原理扩展到自动架构搜索中,即在数千个模型架构中识别有利于目标识别的新型局部循环单元和远程反馈连接。此外,基于任务优化的 ConvRNN 比前馈网络更好地解释了灵长类动物视觉系统中神经激活的动态,这说明在执行不同复杂视觉行为时大脑的循环连接扮演着重要角色。

理论谷歌大脑MIT斯坦福大学论文仿生学卷积神经网络
6
相关数据
激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

推荐文章
暂无评论
暂无评论~