Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

人工智能直接预测在人类视觉区域中用 fMRI 测量的大脑活动


编辑 | 萝卜皮

针对视觉任务优化的深度神经网络 (DNN) 学习将层深度与灵长类动物大脑中视觉区域的层次结构对齐的表示。对这一发现的一种解释是,层次表示对于准确预测灵长类动物视觉系统中的大脑活动是必要的。

为了测试这种解释,明尼苏达大学(University of Minnesota)的研究人员优化了 DNN 以直接预测在人类视觉区域 V1-V4 中用 fMRI 测量的大脑活动。他们训练了一个单分支 DNN 来联合预测所有四个视觉区域的活动,并训练了一个多分支 DNN 来独立预测每个视觉区域。

尽管多分支 DNN 可以学习层次表示,但只有单分支 DNN 可以这样做。这表明,层次表示对于准确预测 V1-V4 中的人脑活动不是必需的,并且编码类脑视觉表示的 DNN 的架构可能存在很大差异,从严格的串行层次结构到多个独立分支。

该研究以「Brain-optimized deep neural network models of human visual areas learn non-hierarchical representations」为题,于 2023 年 6 月 7 日发布在《Nature Communications》。


经过训练以解决计算机视觉问题的深度神经网络(DNN)学习的表征,可以准确预测人脑对复杂的现实世界视觉刺激(例如照片)的反应。为了理解这一成功,人们付出了相当大的努力。一个假设是 DNN 的预测准确性至少部分取决于它们实现视觉处理阶段的层次结构。这个假设是合理的,因为层次处理被认为是灵长类动物视觉的一个重要组织原则;事实上,一些卷积 DNN 的架构受到了灵长类视觉系统中分层处理证据的启发。

该假设还得到了一些实验支持,发现任务优化的 DNN 中的层深度与灵长类动物皮层中不同视觉图的层次进展相一致。然而,非分层模型可能像基于分层、任务优化的 DNN 的模型一样准确地预测大脑活动的可能性,尚未得到彻底研究。

在这里,研究人员测试分层表示对于编码模型是否必不可少,这些模型以最先进的 (SOTA) 准确度预测响应视觉刺激的大脑活动。在执行此测试时,「层次结构」是一个有点负载的术语,具有多种上下文相关的含义。因此,研究人员介绍并区分了三种概念上不同的层次结构。

在组合层次结构中,较高级别的表示比较低级别的表示需要更多的非线性处理步骤来计算(图 1a)。这种层次结构被用来解释灵长类视觉系统中表征的「复杂性梯度」。

在蕴含层次结构中,低级表示充当高级表示的必要预处理阶段(图 1b)。研究人员将此称为「蕴含」,因为它意味着一个成功的高级大脑区域 DNN 模型必须包括成功建模低级大脑区域的层。


图1:层次结构的多样性。(来源:论文)

尽管解剖层次结构和处理层次结构之间的关系很复杂且尚未完全理解,但对蕴含层次结构的明显支持来自以下发现:初级视觉皮层的失活大大减少了 V2、V3 和 V4 的活动。在集成层次结构中,作为某些表示基础的空间集成窗口(即感受野大小)比其他表示更大。随着从较低视觉区域到较高视觉区域的进展,感受野大小的扩展可以说是视觉系统中最显著的层次结构,并且已在许多先前的研究中得到证明。

这三种层级在概念上和逻辑上是不同的,并且指定形成一种层级而不是其他层级的网络相对容易。例如,图 1a 中网络中的填充单元形成了组合层次结构,而不是蕴含层次结构(除非两个分支碰巧具有功能相同的第一层)。在图 1c 所示的简单网络中,两个填充单元形成了一个集成层次结构,因为它们汇集了输入图像的不同大小的区域,但不形成组合或蕴涵层次结构,因为它们使用相同数量的非线性函数组合(只有一个)独立处理输入图像。鉴于这些层次结构并不相同,可能只有三种层次结构中的某些层次结构对于准确预测大脑活动至关重要。也可能它们都不是必需的。

尽管纯前馈 DNN(例如 AlexNet)最自然地体现了所有三种层次结构,每种层次结构都可以由具有各种不同架构的 DNN 中的单元形成,包括具有循环连接、跳过连接或多个独立分支的 DNN。研究人员推断,如果一种特定类型的层次结构对于准确预测大脑活动很重要,那么任何基于 DNN 的准确编码模型都会证明这一点,只要网络和读出连接承认至少一个层次结构解决方案。

因此,该团队在三个非常不同的基于网络的人类视觉区域 V1-V4 编码模型中测试了层次结构。每个编码模型都包含一个 DNN,该 DNN 耦合到一个读出头,读出头将 DNN 中的活动转换为对个体体素中测量的大脑活动的预测。对于每个体素,允许读出头从 DNN 的所有层进行采样,从而使编码模型能够灵活地学习形成最准确地预测大脑活动所需的任何层次结构的表示。

在其中一个模型中,DNN 是任务优化的 AlexNet,它经过预训练以对 ImageNet 数据库中的对象进行分类。在另外两个编码模型中,DNN 被直接优化以使用对数十万自然场景呈现的 BOLD 响应的大量采样来预测人脑活动。

重要的是,该团队基于具有非常不同架构的大脑优化 DNN 构建了两种不同的编码模型:一个经过训练以联合预测所有四个视觉区域的活动的单分支 DNN,以及一个多分支 DNN,其中每个分支都经过独立训练以预测单个视觉区域。然后,他们研究了任务和大脑优化的编码模型,从而确定在功能多样的视觉区域中预测人类大脑活动所必需的层次结构类型。

该团队证明了任务和大脑优化的网络可以产生对大脑活动的高度准确的预测。然后,他们研究了基于单分支(AlexNet 和 GNet8j)和多分支(GNet8r)DNN 的编码模型所表达的层次表示类型。在基于 AlexNet 和 GNet8j 的编码模型中,较低层对后部区域的贡献最大(合成层次结构的证据),并且针对前部区域优化的表示比相反的方式更容易转移到后部区域(蕴含层次结构的证据)。

相比之下,对于 GNet8r,每个分支的较低层对后部和前部区域的贡献相同,并且优化表示在转移到前部或后部区域时显示出相同的预测精度偏移。因此,得出结论,成分和蕴含层次结构对于准确预测大脑活动不是必需的。

论文链接:https://www.nature.com/articles/s41467-023-38674-4

理论
暂无评论
暂无评论~