Anne Trafton作者

直接识别人脸?MIT、耶鲁新研究:模型首先得做到反向「想象」脸

计算机视觉是目前人工智能最成功的领域之一,但这些用来检测物体、人脸的复杂系统,直至今日也无法与人类的视觉系统相提并论。近日,来自麻省理工学院和耶鲁大学等高校研究者提出了一种名为「EIG」的深度神经网络模型,与常用的带标签数据训练出的神经系统相比,新模型的机理更接近真实的人类视觉系统。


只要我们一睁开眼,就能立刻看到周围的环境,这个辨认过程非常快,而且即使身处一个杂乱的环境,我们的眼睛也能辨别出每一个细节。视觉系统不仅可以检测和识别物体,而且可以推断出深层次的场景结构。

为什么大脑能够迅速地形成细节如此丰富的图像?这一直是个未解之谜。

一直以来,脑科学家们都在尝试使用计算机视觉模型来复制大脑的这个过程,但目前最先进的模型只能完成更简单的任务,比如从杂乱的背景中识别出面部或者物体。

此前,逆生成模型或者说「综合分析(analysis-by-synthesis)」提出了解决方案,但是其效果对在线感知来说还是太慢了,并且它们对神经回路的映射也暂不清楚。

近日,MIT 和耶鲁大学的研究人员开发了一种计算机模型,可以像人类一样从图像中迅速生成详细的场景描述,这一成果已经以论文的形式在《Science Advance》上发表,为我们探索大脑这一强大机制的工作原理提供了参考。


论文地址:https://advances.sciencemag.org/content/6/10/eaax5979

论文的主要作者是耶鲁大学心理学助理教授 Ilker Yildirim,其他参与者还包括洛克菲勒大学的两位神经科学和行为学方面的教授 Tenenbaum、Winrich Freiwald 等。

从「逆向图(Inverse graphics)」说起

几十年来,针对大脑视觉系统的研究已经详细探索了视网膜上的光输入如何转变成连贯的场景。这种理解帮助人工智能研究者开发出可以复制该系统各个方面的计算机模型,如人脸或其他目标的识别模型。

「视觉是我们理解最深刻的大脑功能,」Tenenbaum 表示,「计算机视觉是目前最成功的 AI 领域之一。对机器识别图像、人脸及其他目标,我们已经习以为常。」然而,即使是这些复杂的 AI 系统也无法与人类的视觉系统相提并论。

「我们的大脑不只是检测到某处有一个目标,或者识别出这个目标并给它打上标签,」Yildirim 表示,「我们还会看到所有这些物体的形状、几何、表面和纹理。我们能看到的世界非常丰富。」

一个多世纪之前,生理、物理学家、哲学家赫尔曼·冯·亥姆霍兹(Hermann von Helmholtz)提出了一个理论,认为大脑是通过逆转图像形成的 过程来创造这些丰富的表征。他假设这个视觉系统包含一个图像生成器,比如,该生成器可以生成我们在梦中看到的人脸。逆向运行该生成器可以让大脑从图像开始反向工作,推断出产生该图像的是哪种人脸或物体。

然而,问题在于:大脑为什么能够如此之快地执行这一名为「逆向图」的过程?

计算机科学家曾努力尝试创建能够完成这一壮举的算法,但即使是他们创造出的最好的系统也需要多轮迭代处理,所以创造一个眼前所见之景的详细视觉表征要比大脑多花很多时间(大脑只需要 100 到 200 毫秒)。神经科学家认为,大脑中的感知之所以进行得如此之快,是因为它是在通过几个层次分明的神经处理层的前馈传递来实现的。

MIT 领导的研究小组建立了一种名为「EIG(efficient inverse graphics)」的特殊深度神经网络模型,以展示神经层次结构如何快速推断出场景的潜在特征(在这篇论文中指人脸)。与计算机视觉系统中用到的标准深度神经网络(用带标签的数据训练出的神经系统)相比,EIG 是从一个模型中训练出来的,这个模型反映了大脑针对所见人脸生成的内部表征。

EIG 模型架构

EIG 模型学习逆转人脸生成计算机图形程序所执行的步骤。这些图形程序从单个人脸的 3D 表征开始,将其转换为从特定视角看到的 2D 图像。这些图像可以被放到任意背景图上。研究人员推断,在你做梦或在脑海中想象某个人的人脸时,大脑视觉系统可能的运行机制可能与上述过程类似。

研究人员训练该模型来反向执行上述步骤,即从 2D 图像开始,然后添加纹理、曲率、光线来创建一个「2.5D」的表征。这些 2.5D 的图像指定了特定视角人脸的形状和颜色。接下来将其转换为非指定视角的 3D 表征。

「该模型提供了大脑对人脸处理的系统级描述,使其能够看到图像,并通过 2.5D 图像这个重要的中间步骤,最终生成包含形状和纹理表征的 3D 目标,」Yildirim 说道。

图 1:建模框架总览。(A)关于腹流处理功能的两个替代假设示意图:识别或分类的假设(顶部)和逆向图/推理网络假设(底部)。(B)EIG 模型的示意图。圆角矩形的部分是表征;箭头或梯形的部分是表征之间的因果变换和推理映射

EIG 的核心是基于 DCNN 的推理网络,但研究者首先描述了概率生成模型组件,这套组件确定了训练目标并且为推理网络生成训练数据。生成模型采用潜在变量层次结构的形式,结构之间的因果关系表示了在采样面部图像中概率图像程序的多个阶段。

图 2:建模框架总览。(A)与传统的基于 MCMC 的综合分析方法相比,使用 EIG 网络推断的场景参数(层 f5)的随机样本观察的基于图像的对数似然评分。EIG 无需迭代(红线,粉色部分指的是最大-最小区间)即可进行计算,而且比 MCMC 评分更高,方差更低。MCMC 需要数百次的迭代才能实现类似的推理质量(粗线条和细线条显示二者单次运行之间的区别,也可参阅「材料和方法」部分)。(B)EIG 针对杂乱背景下的真实面部扫描的推断结果示例。推断的场景参数使用生成模型进行渲染、重置和 re-lit。(C)EIG 网络应用于真实世界面部图像的推断结果示例。使用适用于潜在场景参数生成模型以正面姿势重新渲染了面部。

模型性能

研究人员发现,该模型与其他研究猕猴大脑中所获得的数据一致。2010 年发表的一篇论文中,来自加州理工学院的 Freiwald 和 Doris Tsao 记录了这些脑区域中神经元的活动,并从七个不同的角度分析了它们如何感应 25 张不同面孔的。该研究揭示了高级人脸处理的三个阶段,而 MIT 的小组现在假设这些阶段对应于其逆向图形模型的三个阶段:一个依赖于 2.5D 视角的阶段;一个 2.5D 过渡到 3D 的阶段;以及 3D 的、视角无关的面部表示阶段。

「我们的结果表明,大脑三个层次的定量和定性反应特性似乎与我们所构建网络的前三个层次非常相吻合,」Tenenbaum 说道。

研究者还对比人和模型从不同视角识别人脸的能力差异。为了增加难度,研究者选择改变人脸纹理或形状(每次只改变其中一个)。结果表明,与当前最佳人脸识别模型相比,新模型与人类的表现要接近得多。进一步的研究表明,这个新模型的机理可能更加接近真实的人类视觉系统。

「这项工作非常激动人心,因为它将中间表征的可解释阶段引入到了人脸识别前馈神经网络模型中,」哥伦比亚大学心理学和神经科学教授 Nikolaus Kriegeskorte 表示。「他们的方法将『视觉系统反转图像生成模型』的经典想法与当下的深度前馈网络结合在一起。有趣的是,这个模型能更好地解释神经表征和行为反应。」

研究者打算在其他图像上继续测试该模型,包括非人脸目标,以此来探索逆向图是否也可以解释大脑如何感知其他类型的场景。此外,他们还相信,将这种方法纳入计算机视觉可以打造出性能更好的 AI 系统。

「如果我们找到证据证明这些模型能够反映大脑的运行机制,那么这项工作会让计算机视觉的研究者更加重视这种逆向图感知方法,并花费更多的经历进行研究。」Tenenbaum 表示。在这个领域,「大脑仍是是金标准。」

参考链接:http://news.mit.edu/2020/computer-model-brain-vision-0304
入门前馈神经网络图像识别耶鲁大学MIT
2
相关数据
计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

图像形成技术

图像形成的研究包括通过放射测量和几何过程形成3D物体的2D图像的过程。 在数字图像的情况下,图像形成过程还包括模数转换和采样。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

图形模型技术

【图形模型】比实际模型更加抽象地描述实物的一种模型。它可用各种图来表示系统的信息流程、物质流程、时间顺序、逻辑关系以及相互联系的结点和支路组成的网络图,如电路图、信息流程图、网络分析的网结图等。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推理网络技术

推理网络是一种执行复杂推理任务的方法, 它通常基于从各种来源中获得的大量的以及不同形式的证据。推理网络被广泛的应用在法律,医学,以及情报分析,人工智能等众多领域。这些任务的复杂性通常可以通过现在被称为推理网络的图形结构来获取和表示。

人脸生成技术

人脸生成是从现有数据集生成(或插值)新面孔的任务。

推荐文章
暂无评论
暂无评论~