Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大脑如何处理语言?普林斯顿团队对Transformer模型进行分析

编辑 | 萝卜皮

在处理语言时,大脑会部署专门的计算来从复杂的语言结构中构建含义。基于 Transformer 架构的人工神经网络是自然语言处理的重要工具。

普林斯顿大学的研究人员探讨了 Transformer 模型和人类大脑在语言处理中的功能特殊化问题。

Transformer 通过结构化电路计算整合单词间的上下文信息。不过,当前的研究主要集中于这些电路生成的内部表征(「嵌入」)。

研究人员直接分析电路计算:他们将这些计算解构为功能专门的「transformations」,将跨词语的上下文信息整合在一起。利用参与者聆听自然故事时获得的功能性 MRI 数据,研究人员验证了这些「transformations」是否可以解释整个皮质语言网络中大脑活动的显著差异。

研究证明,由各个功能专门化的「注意力头」执行的紧急计算,会以不同的方式预测特定皮层区域的大脑活动。这些注意力头沿着与低维皮层空间中的不同层和上下文长度相对应的梯度下降

该研究以「Shared functional specialization in transformer-based language models and the human brain」为题于 2024 年 6 月 29 日发布在《Nature Communications》。

图片

语言理解从根本上来说是一个建设性的过程。我们的大脑解决词语之间的局部依赖关系,将低级语言单位组装成高级意义单位,最终形成我们用来理解世界的叙述。

例如,如果说话者提到「秘密计划」,我们会隐性地处理此结构中单词之间的关系,从而理解「秘密」修饰「计划」。在更高层次上,我们使用周围叙述的上下文来理解这个短语的含义——这个计划包含什么内容,谁在保守这个秘密,他们又在向谁保密?

这种语境可能包含数分钟内展开的数百个单词。人们认为,人类大脑通过一系列功能专门的计算来实现这些过程,这些计算将语音信号转换成可操作的意义表示。

传统的神经影像学研究使用实验手段来分析特定的语言计算过程,并将其映射到受控环境下的脑活动上。然而,这种方法难以概括自然语言的复杂性。

图片

图示:从语言模型的内部组件预测大脑活动的编码模型。(来源:论文)

近年来,基于 Transformer 架构的深度神经网络已经改变了自然语言处理的方式。这些模型通过自监督训练在大规模真实文本语料库上进行学习,从而实现了对长序列中每个词的上下文敏感的意义表示。

除了依赖 Transformer 模型内部的嵌入表示之外,Transformer 模型中的一些注意力头会实现特定的功能特殊化,如解析动词直接宾语或跟踪名词修饰语等。

在当前的研究中,研究人员认为 headwise transformations(由各个注意力头执行的功能专门的上下文计算)可以为大脑中的语言处理提供一个补充窗口。自然语言处理的神经计算理论最终必须指定如何跨单词构建意义。

Transformer 架构提供了对候选机制的明确访问,用于量化过去单词的含义如何融入当前单词的含义。

如果这是人类语言处理的重要组成部分,那么这些 transformations 应该为在自然语言理解过程中模拟人类大脑活动提供良好的基础。

研究人员从广泛研究的 BERT 模型中提取 transformations,并使用编码模型来评估这些 transformations 与其他几个语言特征系列在预测自然语言理解过程中的大脑活动方面的表现。

图片

图示:比较跨皮质语言区域的三类语言模型。(来源:论文)

研究人员比较了三种语言模型的性能:经典语言特征、非上下文词嵌入GloVe)和上下文 Transformer 特征(BERT)。

图片

图示:嵌入和transformations的层偏好。(来源:论文)

研究人员发现,transformations 的表现与嵌入相当,并且通常优于非上下文嵌入和经典句法注释,这表明从周围单词中提取的上下文信息非常丰富。

图片

图示:低维大脑空间中的 headwise transformations。(来源:论文)

事实上,模型早期层的 transformations 比嵌入本身更能解释大脑活动中的独特差异。最后,研究人员将这些 transformations 分解为由各个注意力头执行的功能专门计算。

图片

图示:headwise 大脑和依赖性预测之间的对应关系。(来源:论文)

研究人员发现 headwise 的某些属性(例如回望距离)决定了 headwise transformations 与皮质语言耳之间的映射。研究人员还发现,对于某些语言区域,优先编码某些语言依赖关系的 headwise transformations 也能更好地预测大脑活动。

总之,该研究为理解人类语言处理提供了新的视角。

论文链接:https://www.nature.com/articles/s41467-024-49173-5

理论
相关数据
自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~