Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张兆翔作者

让机器“看山是山”:脑启发的视觉计算|VALSE2018之五

人生之三境界的第一层,“看山是山,看水是水”,本质上展示了人“看见”的过程,以及思绪与理解在这一过程中所起的作用。

编者按:人生之三境界的第一层,“看山是山,看水是水”,本质上展示了人“看见”的过程,以及思绪与理解在这一过程中所起的作用。

“看见”,对于人类而言,似乎是一个很简单自然的事情,其实则不然,从地球上第一个长出眼睛的生物三叶虫,走到今天的人类视觉,经历了五亿四千万年的漫长旅程。人类获得今天的视觉能力,是大自然长期进化的结果,大脑中三分之一的皮层是与视觉相关的。

因此人的视觉任务,本质上是人脑对外界视觉信号作出反应的过程,那么,研究人脑的工作机理,是否能够为计算机视觉提供一些启发,让机器“看山是山”呢?基于此,学术界开展了脑启发视觉计算领域的研究。那么过去一年中,在这一领域都取得了哪些成绩呢?

今天,来自中科院自动化所的张兆翔研究员,将带着大家回顾,脑启发视觉计算在2017年的关键进展。

文末,大讲堂特别提供文中提到所有参考文献的下载链接。

所谓脑启发的视觉计算就是从生物大脑的神经结构、认知机制、行为特性等多个层面寻求启发,引入神经科学、认知科学与心理学的先进成果,提出新的视觉计算模型与方法,克服当前模型与方法局限性,提升视觉计算的性能(准确性、鲁棒性、自适应性、可泛化性、可解释性等)。脑科学与视觉计算可以从如下两个方向加一结合,一是基于脑科学机制进行视觉计算的启发建模,二是现有服务于视觉计算的神经网络模型为脑启发机理提供分析和借鉴。

历史上计算机视觉的发展与脑启发的引入密切相关。很多脑机制的引入都为计算机视觉的突破提供了借鉴和创新源泉。

以Gabor为代表的局部特征描述子是借鉴脊椎动物视觉皮层感受野的特性而设计的,在许多计算机视觉任务上取得了很好的性能。

显著性注意机制从人类视觉感知的显著性注意机制中获得启发,在当前计算机视觉中的检索和检测任务中均取得了很好的性能。

Neocognitron到HMAX再到当前流行的深度学习方法,都借鉴了大脑中的特征分层和处理机制。当前的主流深度学习方法甚至在识别、分割、检测等任务上取得可以媲美人类的性能。

机器学习专家Tom Mitchell在2017年的全球互联网大会上进一步强调了脑科学与机器智能相互交叉与借鉴的重要性。

下面主要从结构机制、功能机制和学习机制三个层面具体介绍2017年度脑启发视觉计算的相关研究进展。

在结构层面上,Boyn等人提出人工神经突触建模与硬件化方法。该方法利用神经元突触强度分布刻画记忆,通过典型的STDP实现学习,在无监督学习问题上验证了人工神经突触的可行性和先进性。这一研究为后续开展类脑器件研究奠定了坚实基础。

受人脑感知物体方式的启发,Hinton等提出了一种新的神经元结构Capsule。我们都知道现有卷积神经网络方法需要maxpooling操作。该操作将图像中不同基元间的结构关系完全摒弃。即便同一个人的脸,鼻子、眼睛换一个奇怪的顺序以后,maxpooling的结果也一模一样。这与人类视觉感知物体的方式有显著差别。

为克服上述缺陷,Hinton等提出了新的Capsule网络结构。Capsule可以看成一种新的神经元模型。 Capsule将原来神经元结构标量的输入输出转化为向量的输入和输出,并利用这些向量存储特征的不同属性,进而通过动态路由机制实现从底层到顶层的学习。该种网络结构更符合人类感知物体的方式,且具有举一反三的能力。CapsuleNet在一些视觉任务上虽然没有取得比CNN更好的性能,但作为一个尝试去探索有别于当前深度网络的新模型与新方法具有重要的研究意义。

在结构层面上我们课题组也进行了一系列探索。我们都知道现有卷积神经网络往往都只有一种神经元类型,但人脑中却包含多种。受此启发,我们引入多种神经元类型,并通过自主学习与选择,探索兴奋型神经元和抑制型神经元在相关任务上的有效结合。

我们的模型在不同任务上都获得了比单种神经元模型更好的性能。这些结果验证了模型中多种神经元的有效性,是进一步挖掘人工神经网络与生物神经网络联系的重要切入点。

在功能层面上,《Science》报道了一个概率生成模型,用于验证码识别。验证码识别是典型的可以测试机器视觉性能的模型,在现实中往往用于区分机器与人。现有深度神经网络往往只有前馈网络,而没有推理。该工作受系统神经科学的启发,引入递归皮试网络(RCN),以统一的框架实现验证码的检测、分割与识别。

RCN模型有前馈过程,有反馈过程。通过不断迭代,使得前馈和反馈同时进行,最后很好地实现验证码的识别,即使对不同形状以及噪声遮挡下的验证码依然可以获得很好的识别性能。RCN能够模仿人脑中前馈和反馈同时处理的机制,具有很好的可解释性和可泛化性,能取得举一反三的效果。虽然该模型在验证码识别特定任务上取得了比卷积神经网络更好的性能,但也存在显著局限性。该方法往往只能用于一类对基元具有明确定义的问题,而如何将之推广到更一般的感知问题,还有待进一步探索。

现有卷积网络同层神经元之间没有连接,而人脑中神经元之间却相互联系。受此启发,清华大学胡晓林等人提出了一种Recurrent Convolutional Network,实现了同层内神经元的连接。Recurrent Convolutional Network的局限是每个神经元的局部感受野随时间在不断扩大。这不符合生理学事实——人脑当中感受野一定是局部受限的。因此,作者引入一个机制来控制神经元的有效感受野,使其尺寸随内容自动变化。具体做法是在反馈连接上加入一个门控单元,其开闭由前馈信息和反馈信息同时决定,这种模型已经取得当前OCR识别任务最好的效果。

我们课题组最近在功能机制上也开展了一系列探索。我们借鉴人脑中多模态震荡整合机制来实现多模态的有效融合。传统多模态模型分别提取视觉模态和听觉模态特征,通过简单连接实现视听多模态的融合。这种方式虽然简单,但容易造成信息的混叠,往往效果不太理想。我们的研究引入了长短时记忆同步关联与记忆共享表达,通过借鉴人脑当中类似震荡机制的方式,实现视听模态的有效整合。

我们的工作与单模态方法,其他的多模态整合方法相比具有优越性,同时也呼应了神经科学中的多模态震荡整合机制。

在学习机制层面上,自动化所刘成林老师团队提出了原型学习的思想。我们都知道卷积神经网络是通过最后的softmax层实现识别,而softmax层在转换的时候已经固定了类别的个数,因此传统模型处理的识别问题往往都是封闭问题。然而很多视觉计算问题都是开放的,为实现开放环境下的识别,他们通过结构模型的方法,将结构模型识别与统计模型相结合,通过将softmax层替换成原型层,实现了概念发现与噪声拒识,进而实现开放环境下的理解。

人脑往往可以实现连续学习,即人在学习一个任务以后,学习新的任务并不会降低原来任务的性能。而现有的计算机模型却不能实现这样的功能,它们在执行任务1后,再执行任务2时,会直接在任务1的参数基础上进行微调来进行训练。这样使得任务2训练好后,任务1的参数被遗忘。

如何实现连续学习呢?受哺乳动物和人类大脑固化既往获得的技能和记忆的理论启发,Deepmind引入ProgressiveNN, PathNet, EWC来达到连续学习的目标。比如针对新的任务构建网络时,保留和旧任务相关的网络,path和重要参数,实现旧的任务和新任务之间的共生,使网络具有连续学习的能力。

最后总结一下今天的内容。我们认为脑科学研究从分子到行为多个层面都可以进行探索,是视觉计算理论取得突破的重要创新源泉。现有视觉计算理论与方法在鲁棒性、自适应性、可泛化性、可解释性等问题上仍然存在固有缺陷,需要以脑为参照物加以对照,寻求借鉴。向脑学习,开展脑启发的视觉计算具有十分广阔的创新空间与发展前景。

文中参考文献下载链接为:

https://pan.baidu.com/s/1ptnKvOtatbMqPImBNo0Ngw 密码: x6qr

深度学习大讲堂
深度学习大讲堂

高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息。

入门脑启发的视觉计算计算机视觉CNN神经科学深度学习神经网络
2
相关数据
汤姆·M·米切尔人物

TOM M.Mitchell是卡内基梅隆大学的教授,讲授“机器(AAA)的主席:美国《Machine Leaming》杂志、国际机器学习年度会议(ICML)的创始人:多种技术杂志的撰稿人,曾发表过许多文章,出版过多本专著,是机器学习领域的著名学者。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经认知机技术

卷积技术

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

连续学习技术

推荐文章
暂无评论
暂无评论~