仵冀颍分析师

NLP能否像人脑一样工作?CMU、MIT三篇论文详解机器和大脑范畴下NLP的关系

作为计算机科学领域与人工智能领域的重要研究课题,自然语言处理已经在各领域展开了广泛的研究与探讨。随着研究的深入,一些学者开始探讨机器中的自然语言处理和大脑中的自然语言处理是否存在着一些联系,进而延伸至神经科学与 BERT 等 NLP 预训练方法的交叉点。本文选取 CMU Wehbe 研究小组(2 篇)和 MIT Roger P. Levy 教授组(1 篇)的三篇文章,对这一主题进行了详细的解析和讨论。


自 Google AI 提出 BERT (Bidirectional Encoder Representations from Transformers) 后,BERT 在自然语言处理领域(Natural Language Processing,NLP)中应用获得了非常好的效果,它成为了近期 NLP 领域中最重要的进展。BERT 是一种 Transformer 的双向编码器表示,它通过联合调解模型中所有层的上下文来完成双向编码器表示的预训练。此外,还可以通过一个额外的输出层对预训练的 BERT 表示进行微调,从而使其在基本保持原有架构的基础上,能够快速适用于不同的 NLP 任务,例如语言推理、问答系统等。


与大量的利用 BERT 提升语言模型性能的研究不同,CMU 的 Wehbe 研究小组近期在关注一个非常有意思的问题:理解机器中的自然语言处理和大脑中的自然语言处理之间的关系,这个问题也可以看做是语言模型自然语言处理)和神经科学的交叉研究。谈到应用于自然语言处理任务中的各种人工智能模型,人们总是希望它们能够在完成文本理解的任务上达到跟人类一样的水平。那么,想要让模型像人脑一样工作,模型能不能运用像人类的大脑中一样的表征呢?Wehbe 研究小组重点关注的就是使用大脑中的活动记录来解释一种人工智能模型---BERT 的表示,以及试图找到改进它们的启发式方法,甚至改变网络学习到的权重,使它们能够像大脑一样工作。

关于理解机器中的自然语言处理和大脑中的自然语言处理之间的关系,Wehbe 组有两篇文章发表在 NeurIPS 2019 中,分别是:

  • 利用阅读自然文本的受试者的大脑活动记录来对比和解释不同神经网络生成的表示的方法(《Interpreting and improving natural-language processing (in machines) with natural language-processing (in the brain)》,这篇文章通过对四种 NLP 模型:ELMO、BERT、USE、T-XL,和两种人脑活动记录方式:功能磁共振成像(functional magnetic resonance imaging,fMRI)、脑磁图(magnetoencephalography,MEG)进行对齐匹配,展示了不同 NLP 模型所提取的表示中包含了哪些对应于人脑记录的、有助于改进效果的信息,例如上下文语境信息、词性信息等。

  • 将预测任务的目标信息编码到模型参数中,从而改进 BERT(《Inducing brain-relevant bias in natural language processing models》)在预测脑内语言处理的神经活动的能力。在用神经成像设备(fMRI、MEG)记录大脑活动的同时,向受试者呈现语言刺激(例如逐字阅读一本书的一章或听一个故事),使用从 NLP 模型中提取的对应文本的表示来模拟所记录的大脑活动。通过微调 BERT,以找到能够高度概括人脑和记录类型的表示,从而改进 BERT。


除关注 Wehbe 研究小组的工作之外,我们也分析了这一领域中的其它研究成果,例如 MIT 的 Roger P. Levy 教授组的文章《Linking artificial and human neural representations of language》,这篇文章的关注点与 Wehbe 小组有所不同,其主要研究目的是解释「从句子理解行为中得到的什么信息在人脑中得到了强有力的表达?」,即神经科学和 BERT 之间最有意义的交叉点在哪?他们使用 BERT,并在不同的自然语言理解(Natural Language Understanding,NLU)任务中对 BERT 进行微调,目的是提高大脑解码性能,从而找到这个关键的信息

一、Interpreting and improving natural-language processing (in machines) with natural language-processing (in the brain)

论文链接:https://arxiv.org/pdf/1905.11833.pdf

首先,我们来看看如何解释机器中的自然语言处理和大脑中的自然语言处理之间的关系。深度神经网络应用于 NLP 任务中获得了非常好的效果,这些深度神经网络模型似乎能够捕捉到人类语言中的一些特性,那么它们捕获到的特性或者说模型提取出来的特征究竟是什么?前期,一些研究人员针对 LSTMs 和 RNNs 等时序模型开展了一些工作,目的是评估神经网络如何传播信息、探索单词嵌入表征哪些信息以及通过检测特定语言信息的 NLP 任务来寻网络层中的表示等。关于 transformer 等非时序模型的类似研究则相对较少。

在这篇文章中,作者提出了一种解释神经网络的新方法,即使用我们唯一能理解语言的处理系统——大脑——来解释神经网络。事实上,根据神经科学的相关研究成果可知,大脑在处理语言时确实能够表征复杂的语言信息。因此,这篇文章考虑使用大脑活动记录作为这些表示的特征。通过将神经网络表示与大脑活动对齐,找到有效的完成 NLP 任务的网络层表示。

具体来讲,为了使神经网络中某一层次的表现能够与大脑活动相一致,这篇文章提出学习一个能够预测大脑每个区域的 fMRI 或 MEG 活动的模型,见图 1,图中显示了大脑相对于头部的视图。利用 [4] 中的方法,提取取得的先验知识(Prior),其中,组 1 中的区域(白色)处理与孤立单词和单词序列相关的信息,而组 2(红色)只处理与单词序列相关的信息。V 表示视觉皮层。

通过分类任务和显著性检验来确定模型预测大脑活动的区域:如果模型的一个层表示能够准确地预测一个大脑区域的活动,那么就可以得出该层与该大脑区域共享信息的结论,从而可以根据对该大脑区域的先验知识推断出该层的适合的表示。

图 1. 本文提出的方法示意图。

1、对齐神经网络和大脑活动的实验分析

为了对齐神经网络和大脑活动,作者选择了四种神经网络模型:ELMO、BERT、USE 和 T-XL,以及两种记录和展示大脑活动的数据方式:功能磁共振成像(functional magnetic resonance imaging,fMRI)、脑磁图(magnetoencephalography,MEG)进行了大量的实验分析。

fMRI 对于由神经活动引起的血液中氧含量的变化非常敏感,它具有高的空间分辨率(2-3 毫米)和低的时间分辨率(多秒)。MEG 主要用于测量由于神经活动引起的颅骨外磁场的变化,它具有低空间分辨率(多厘米)和高时间分辨率(高达 1KHz)的特点。


对齐神经网络和大脑活动的任务描述如下:对于神经网络模型生成的表示 x_l,k,使用一个编码模型输入表示,完成与模型生成 x_l,k 时一样的阅读 k 个单词的任务,预测此时的大脑活动。给定函数 f,f(x_l,k)=y,y 是大脑活动的记录(fMRI 或 MEG)。作者将 f 定义为线性函数,附加岭回归正则化 (Ridge Regression) 约束来提取 x_l 与 y 的关系。通过四次交叉验证训练模型,并通过嵌套交叉验证选择正则化参数

在四次交叉验证设置中,作者通过在对保留数据的分类任务中使用每个编码模型来评估预测。分类任务是根据两组单词各自的特征表示来预测正在读取的是哪一组单词。这项任务是通过 fMRI 的 20 组连续单词取样(考虑到血流动力学反应的缓慢性)和 MEG 中的 20 组随机单词取样来完成的。作者对 fMRI 中的每个体素(voxel)和 MEG 中的每个传感器/时间点进行了多次分类,得到了最终的平均分类准确性评估。作者称这种将编码模型的预测与正确的大脑记录相匹配的准确性为「预测准确性」。

体素(voxel)是体积元素 (volumepixel) 的简称,是指三维空间中值的体积元素(体积和像素),也是数字数据在三维空间中的最小单位。在 fMRI 中,磁共振成像的 MRI 像素强度与相应体素的信号强度成正比。


这个实验也佐证了其它一些与脑科学和 NLP 相关的观点。由于 MEG 信号比单词表征的呈现速度快,因此与较慢的、无法对应到单个单词的 fMRI 相比,MEG 的记录更适合研究词词嵌入的组成(我们知道,从文本语料库中学习到的单词嵌入可能包含与单词的字母数和词性有关的信息)。一个单词的词性和它的 ELMo 嵌入能够预测在单词出现后大约 200 毫秒左右 MEG 传感器左前方大脑活动的共享部分。事实上,从电生理学研究可以得知,在额叶单词出现后 200 毫秒左右,部分言语的刺激才会引起反应。

解读上下文长语境表征

NLP 关注的一个问题是模型是否能够将上下文的长语境集成到其表示中。作者通过比较用两种表示训练的编码模型的性能来研究所考虑的四种 NLP 模型是否能够创建文本序列的集成表示:任务(一)与受试者所显示的最新的单个单词标记相对应的标记级单词嵌入(word-embedding);任务(二)10 个单词的表示对应最近的 10 个单词(10-word representation),因此属于上下文有关。图 2 中给出了四个模型的定性比较,其中 8 个受试者中的每一个只包含最显著预测的体素,错误发现率控制在 0.05 水平。

图 2. 各模型两种网络表示的预测性能比较。

图 3 给出了不同模型针对 1b 组区域和 2 组区域预测差异的定量分析。我们观察了所有模型中单词嵌入性能的相似性,这些模型都预测了左、右 1b 组区域和一定程度上 1a 组区域的大脑活动。其中,ELMo、BERT 和 T-XL 长上下文长语境表示能够预测 1 组区域和 2 组区域的子集。上下文长语境表示(几乎没有蓝色体素)也能够预测利用词嵌入预测到的绝大部分内容。由此,作者得出了结论:上下文长语境表示最有可能包括关于长语境上下文文本信息和最近的词嵌入信息。另外,图 2 的实验还表明,右上角的 USE 上下文长语境表示可以预测 2 组区域中更小的子集中的活动。USE 的低性能可能是由其以粗糙方式构词的深度平均操作所引起的:它的上下文长语境表示只包括长期的信息。

图 3. 每种基于网络的方法都能很好地预测 1b 组区域和 2 组区域的数量。

神经网络图层深度与上下文长度的关系

图 4 给出 ELMo、BERT 和 T-XL 在不同的图层上的变化情况。在所有的网络中,中间层对于超过 15 个单词的上下文表现最好。此外,所有网络中最深层的层在长度较短的上下文(少于 10 个单词)中性能都急剧提高。只有一个例外:T-XL 是唯一一个能够随着上下文长度增加而仍然持续提高性能的模型,这与之前的研究结论是吻合的(通常认为 T-XL 能够比 transformer 更好地表征较长的文本信息)。

图 4. 当提供给网络的上下文数量增加时,ELMo、BERT 和 T-XL 中所有隐藏层的编码模型的性能比较。

由图 4 中的实验,作者发现 BERT 中的第 1 层与其他两个神经网络模型中的第一层的行为不同。作者在图 5 中给出了关于 BERT 从第 1 层到其它层的编码模型的性能变化,在这种实验场景下,以第 1 层的性能为基准考虑其它层的性能,BERT 的变化规律与图 3 中 T-XL 的变化规律一致。随着上下文长度变化,在 BERT 第 1 层中几乎没有产生性能变化。这表明,第 1 层以一种限制在该层中保留较长上下文信息的方式组合,来引入 token 级的嵌入信息。

图 5. BERT 从第一层到其它层的编码模型的性能变化。

注意机制对图层表示的影响

作者进一步通过实验分析了注意机制在模型的不同层中的影响。在这篇文章中,作者使用对前一层表示的统一注意机制代替学习注意机制。对于 BERT 来说,注意力方程为:


替换掉预训练的矩阵 Wi.^Q、Wi.^K 和 Wi.^V,改为统一注意 Attn(Q,K,V),从而保证在值矩阵 V 中的值上具有相等的概率,一次只改变一个层,同时保持预训练的 BERT 的所有其他参数不变。由图 6 的实验,注意机制的变化会影响深层次(但不是输出层)的性能。然而,出乎意料的是,使用统一注意机制后,浅层性能的改进最多只能针对上下文长度为 25 个单词的情况。

图 6. BERT 第 1 层使用统一注意机制时编码模型性能的变化。

2、从大脑解释的角度改进 NLP

通过前面的对齐实验可知,在预测大脑活动时,采用统一注意机制能够改进基本 BERT 模型的前半部分的层的效果,接下来,作者测试改变 NLP 任务会如何影响 BERT 预测语言的能力。

实验中的任务描述如下:首先向 BERT 输入一个完整的句子,屏蔽掉单焦点动词(例如,[CLS]the game that the guard [mask] bad.),然后使用预先训练好的语言模型头完成对屏蔽位置的预测,最后通过比较原正确动词(如 is)和错误动词(如被错误预测的动词,如 are)的得分来计算预测准确度。将注意机制集中在第 1 层到第 6 层的基本 BERT 中,一次一层,其余参数与上一实验中相同,并对 13 个任务进行评估(具体任务见表 1)。表 1 中给出了改变层 1、2 和 6 的结果。在 13 个任务中的 8 个任务中,修改后的模型明显优于预先训练的模型(「base」),在其余 5 个任务中的 4 个任务效果类似。

表 1. 改变模型的注意机制对不同句型主谓一致性的表现。

3、文章讨论

本文提出了一种利用阅读自然文本的受试者的大脑活动记录来对比和解释不同神经网络模型生成的表示的方法。包括:

  • 使用 MEG 数据证明了 ELMo(非上下文的)的单词嵌入中包含了关于单词长度和词性的信息;

  • 使用 fMRI 数据证明了不同模型(ELMo,USE,BERT,T-XL)得到的表示包含了以不同的上下文长度编码与语言处理相关的信息;

  • USE 生成的长语境上下文表示与其他模型的表示特点不同,其表示中不包括任何短语境的上下文文本信息;

  • 基于 transformer 的模型(BERT 和 T-XL)在中间层捕获与大脑最相关的上下文信息;

  • T-XL 结合了递归属性和 transformer 属性,与纯递归模型(例如 ELMo)或 transformer(例如 BERT)不同,在上下文语境很长的情况下,性能也不会降低。


本文实验结果也表明,与使用学习注意机制相比,使用统一注意机制能够改善浅层(1-6 层)的大脑预测效果。基于这一实验结果,本文使用语法 NLP 任务,测试被改变的 BERT 的表示如何影响 BERT 预测语言的能力。可以看到改进的 BERT 在大多数任务中表现得更好。本文的这些实验给出了这样一个可能:如何改变 NLP 模型以更好地与人类处理语言的大脑记录相一致,有可能能够使得 NLP 模型更好地理解语言

二、Inducing brain-relevant bias in natural language processing models

论文链接:https://arxiv.org/pdf/1911.03268.pdf

这篇文章的主要研究内容是,研究人员在用神经成像设备(fMRI、MEG 或 EEG)记录大脑活动的同时,向受试者呈现语言刺激(stimuli)(例如逐字阅读一本书的一章或听一个故事),使用从 NLP 模型中提取的对应文本的表示来模拟所记录的大脑活动。如果可以通过显式地训练 NLP 模型来预测语言诱发的脑记录,就能向 NLP 模型中引入与大脑相关的语言表示,从而进一步改进 NLP 模型。本文以 BERT 为基础,基于多个受试者和多个大脑活动记录模式同时微调,以找到能够高度概括人脑和记录类型的表示。

在这篇文章之前,已经有一些研究人员开展了关于语言相关脑活动和 NLP 模型之间的关系研究。主要研究的方向是利用 NLP 模型提取单词、句子或文本的向量(嵌入)表示,之后将这些向量(嵌入)与脑活动的 fMRI 或 MEG 记录相对应。然而,很少有研究人员尝试使用大脑活动来修改 NLP 模型提取的(嵌入)表示。

这篇文章给出的研究结果显示,经过微调的 BERT 可以提高对脑活动的预测能力,此外,MEG 和 fMRI 中学习到的微调表征比从单纯 fMRI 中学习到的表征更适合预测 fMRI,这表明从 MEG 和 fMRI 中学习到的表征能够有效捕获与大脑活动相关的信息,而不仅仅是模态的伪影,因此,是更为有意义的研究神经科学的图像。

1、本文使用的 BERT 模型框架

在这篇文章的实验中,作者使用了受试者阅读《哈利波特与魔法石》其中一个章节时记录的 MEG 和 fMRI 数据。在两次实验中,这一章节的内容都是以一次一个单词的频率呈现,每个单词出现在屏幕上 0.5 秒,总共有 5176 个 单词。

作者使用 Devlin, J. 2018[1] 中的 BERT 框架,其中,每个层首先应用自注意机制(将在几个潜在方面彼此最相似的嵌入组合在一起)对其输入嵌入进行应用转换。然后对这些组合的嵌入进行进一步转换,为下一个层生成新的特征。使用 Hugging Face 提供的 PyTorch 版本的预训练 BERT。该模型包括 12 个层次,并在 BooksCorpus 和 Wikipedia 上进行训练,以预测文本中的屏蔽词,并对两个词序列在文本中是否连续进行分类。

在 BERT 框架中,每个输入序列都附加了两个特殊的令牌(token),其中,[SEP] 用于标记序列的结束,[CLS] 被训练为使用连续序列分类任务的输入的序列级表示。向微调 BERT 添加一个简单的线性层,将输出嵌入从基本架构映射到感兴趣的预测任务。通过添加这一线性层,模型实现了端到端的微调,即在微调过程中模型的所有参数都会发生变化。在这篇文章的实验中,作者除使用基本模型的输出层外,还将每个单词的单词长度和上下文无关的日志概率连接到这个输出层,具体见图 7。

图 7. 使用 fMRI 和/或 MEG 数据微调 BERT 的框架。

首先,修改预训练的 BERT 模型,以更好地捕获与大脑相关的语言信息。实验通过训练模型来预测 fMRI 数据和 MEG 数据,受试者阅读同一本小说的一章,将每个数据记录下来(在不同的时间,来自不同的受试者)。fMRI 记录血液氧合水平依赖性(BOLD)反应,即大脑某一特定区域的相对含氧量,这是大脑该区域神经元活动程度的函数。然而,BOLD 的反应在一个区域的神经元激活后 5 到 8 秒达到峰值。由于存在延迟,这就要求预测大脑活动的模型能够在 fMRI 图像被捕获的时间点之前访问单词。因此,使用 20 个单词(涵盖 10 秒的时间)作为模型的输入,而不考虑句子边界。

与 fMRI 记录相比,MEG 记录具有更高的时间分辨率。每一个单词,都能够收集来自 306 个传感器的 20 个时间点。在使用 MEG 数据的实验中,该模型对每个单词的 6120(306×20)个值进行预测。此外,实验只对内容词模型进行训练和评价(内容词包括形容词、副词、助动词、名词、代词、专有名词或动词)。如果 BERT 标记器将一个单词分解成多个标记,我们添加 MEG 数据作为该单词的第一个标记。将 MEG 数据与 fMRI 示例中的所有内容词(即每个 fMRI 图像之前的 20 个词的内容词)对齐。

作者分四次记录每个受试者的 fMRI 数据,使用与 fMRI 相同的章节划分,记录四次 MEG 数据。通过 fMRI 测试进行交叉验证,即对于每一次 fMRI 运行,使用其他三次运行的示例来训练模型,并使用第四次运行来评估模型。

最后,还需要对 fMRI 和 MEG 数据进行预处理。去除掉每次运行中的前 20 个和最后 15 个 fMRI 图像,以避免预热和边界效应。此外,与这些被排除掉的数据相关联的词也不用于 MEG 预测。对运行中的 fMRI 数据进行线性去趋势化处理,并对运行中的数据进行标准化处理,使每个体素(voxel)的方差为 1,每个体素的平均值为 0。MEG 数据也在 fMRI 运行中(即在交叉验证折叠中)被去渲染和标准化处理,以便每次传感器组件在运行中的所有内容词上具有平均值 0 和方差 1。

2、实验情况分析

模型

为了对本文研究的内容进行充分的实验验证,作者使用了多个微调的 BERT 模型:

  • 【Vanilla 模型】基线 BERT 模型,对于每个受试者,在预训练的 BERT 模型中添加一个线性层,并训练该线性层从嵌入的 [CLS] 标记映射到受试者的 fMRI 数据。在训练过程中,冻结预训练的模型参数,从而保证嵌入不会发生变化。根据不同实验中进行对比模型的不同,Vanilla 模型可以训练 10、20 或 30 个阶段。

  • 【Participant-transfer 模型】为了研究文本和通过微调 BERT 模型学习到的大脑活动之间的关系是否在受试者之间普遍存在,首先根据最具有可预测大脑活动的受试者对模型进行微调。在这个微调过程中,只训练线性层 2 个阶段,之后再训练整个模型 18 个阶段,然后,固定模型的全部参数。对于其他受试者,针对其当前实验环境下的第一个受试者训练一个线性层。这些线性模型只训练了 10 个阶段,因此,会与 Vanilla 模型训练 10 个阶段的结果进行对比。

  • 【Fine-tuned 模型】为了验证一个经过微调的模型是否能够预测每个受试者的数据,在 Vanilla 模型线性映射的基础上,对每个受试者的模型进行了微调。只对这些模型的线性层进行 10 个阶段的训练,然后对整个模型进行 20 个阶段的训练。

  • 【MEG-transfer 模型】使用这个模型来研究文本和大脑活动之间的关系是否能够通过一个精确调整了 MEG 数据传输到 fMRI 数据的模型所学习到。首先,对 BERT 进行微调,训练它预测所有 8 个 MEG 受试者的数据(联合)。在 MEG 训练中,只训练线性输出层 10 个阶段,然后进行 20 个阶段的全模型训练。然后,采用 MEG 微调模型并训练它来预测每个 fMRI 受试者的数据。该训练还使用了 10 个阶段,仅训练线性输出层,然后是 20 个阶段的完全微调。

  • 【Fully joint 模型】训练一个模型同时预测所有 MEG 受试者和 fMRI 受试者的数据。只训练 10 个阶段的线性输出层,然后训练 50 个阶段的完整模型。


实验结果

图 8 给出了使用不同的微调模型的实验对比结果,其中每个子图给出两个模型的对比试验。图中 x 轴坐标表示不同的体素类型,在 20 VS 20 测试中,以两种模型的最大准确度降序排列。彩色线(每个受试者一条)显示了两个模型的平均准确度之间的差异,其中,对每个 x 坐标左侧的所有体素求取平均值。图 8(a)-(c) 中的阴影区域给出超过 100 个模型初始化的标准偏差—在(d)中给出的框架中,无法进行这种计算。黑色线是所有受试者的平均值。在图 8(a)、(c) 和 (d) 中,很明显,对于大量体素,微调模型在预测体素活跃度方面比标准 Vanilla 模型更准确。在图 8(c) 中,MEG-transfer 模型的准确度与仅对 fMRI 数据进行微调的 fine-tuned 模型大致相同。

由图 8 的实验我们可以得到以下几个结论:(a)与 Vanilla 模型相比,使用 Fine-tuned 的语言模型能够更好的预测大脑活动;(b)对于一些受试者,与不包含 MEG 记录的情况相比,引入 MEG 记录能够略微提高预测准确度,而对于其他受试者来说,基于 MEG 记录训练的效果更差或是不存在明显改变;(c)与 Vanilla 模型相比,Participant-transfer 模型能够更准确地预测体素,这表明 Participant-transfer 模型确实能够获得迁移学习的好处;(d)在选择合适的超参的情况下,Fully joint 模型可以表现得和基线 Vanilla 模型一样好或更好。

图 8. 不同模型的实验结果比对。

其次,作者在 GLUE 基准上运行了两个模型(MEG-transfer 模型和 Fully-joint 模型),并将结果与标准 BERT 进行了比较,见表 2。这些微调可能有助于完成 NLP 任务,也可能对模型原有的效果没有什么影响,但并不会降低原有的 NLP 任务完成性能。

表 2. GLUE 基准实验结果。

为了理解当对 BERT 进行微调以预测大脑活动时,BERT 中的表示是如何变化的,作者最后研究了示例中各种特征的普遍性。通过观察预测和目标之间的欧式距离的百分比变化,来计算微调后每个示例的预测准确度变化的程度,该百分比变化是根据空间位置手动选择的一组可能与语言相关的体素计算得到的,如图 9 所示。从左到右是人脑左右半球的充气侧视图,以及左右半球的充气内侧视图。体素是根据大脑中的空间位置手动选择的,目的是将计算限制在更可能涉及语言处理的人脑区域中。

图 9. 用于计算特征分布分析中 Fine-tuned 模型和 Vanilla 模型之间准确度变化的体素。

作者在实验中评估了所有可用的特征,但只给出了运动标签、情感标签和部分语音标签,因为其他特征要么太稀疏、无法评估,要么在分布上没有任何变化,评估结果见图 10。实验发现,在微调过程中准确度发生变化的样本中,包含描述动作和命令式语言的动词的示例更为普遍。



图 10. 在语言区域预测准确度方面变化最大和最小的例子中,运动(Motion)、情感(Emotion)、部分语音(Part of speech)相关标签的普遍性。

图 11 显示了 Fine-tuned 模型和标准 Vanilla 模型的预测在大脑中的不同之处,该实验有效证明了 Fine-tuned 模型可以更好地预测大脑中与语言处理相关的区域。每一列为一个受试者大脑左半球的充气侧视图。从上往下第一到第三行,Model1 和 Model2 分别代表 Vanilla 模型和 fine-tuned 模型、Vanilla 模型和 participant-transfer 模型、Fine-tuned 模型和 MEG-transfer 模型。灰色背景的列表示 fMRI 和 MEG 实验中相同的部分。根据相关样本 t 检验,仅显示两个模型之间显著不同的体素,并使用 Benjamini–Hochberg 程序在 0.01 水平上校正错误发现率 [2]。为每个受试者设置单独的颜色映射,并且所示的比较使得最红的值在显著差异的绝对值的 95% 处,而最蓝的值在该最红的值的负值处。Fine-tuned 模型和 participant-transfer 模型都优于 Vanilla 模型,特别在被认为是与语言有关系的大脑区域中。

作为参考,图 11 第四行给出了每个受试者语言网络的近似结果。尽管第三行的差异要比前两行小得多,但是仍然可以看到,在训练过程中引入 MEG 数据能够改进模型性能。

图 11. 9 名受试者在体素水平上 20 和 20 分类任务的准确性比较。

3、文章讨论

对 NLP 模型进行微调来预测大脑活动是学习人类语言处理的一个新的研究方向。本文所研究的技术是将预测任务的目标信息编码到模型参数中,从而改进 NLP 模型,而改进后的 NLP 模型适用于不同大小、不同时空分辨率的预测任务。此外,这种技术还能够有效利用大规模的数据集(fMRI、MEG)来辅助人类语言处理的学习。当然,就这一问题的研究还有漫长的道路,目前还不能够准确掌握如何优化模型以有效利用大脑中针对语言的多种信息来源,以及如何能够有效训练大脑活动低信噪比数据等等。尽管如此,这项研究证明了通过对语言模型进行微调来学习文本和大脑活动之间关系的可行性。作者相信,这为那些对人类语言处理过程有兴趣的研究人员提供了一个新的、有趣的、让人兴奋的方向。

三、Linking artificial and human neural representations of language

论文链接:https://arxiv.org/pdf/1910.01244.pdf

最后,我们来看看 Roger P. Levy 教授组给出的研究成果,即哪些 BERT 得到的信息是是在人类大脑中最有效的表达。这篇文章在广度上扩展了神经网络脑解码的研究,研究了一类适用于广泛的不同任务的优化模型。在深度上,则是深入探讨了每种模型对其脑解码性能的具体表征内容。

文章评估了人类大脑活动和应用于不同自然语言理解(Natural Language Understanding,NLU)任务神经网络模型之间的联系。作者发现,这些模型是针对不同的 NLU 任务设计的,它们匹配了不同的人类大脑激活方式。进一步的,对这些模型表征内容的变化进行分析,作者发现模型语法表征的粒度至少能够部分地反映它们在大脑解码过程中的差异。

1、方法简介

图 12 给出了这篇文章实验的总体结构,该实验尝试将人类神经成像数据与句子输入的不同候选模型表示相匹配。利用一个记录人类大脑活动的数据来完成句子,即学习一个线性回归模型,该模型从人类大脑活动映射到由不同的自然语言理解模型产生的相同句子的表征。

图 12. 大脑解码方法。

考虑一个任务 T 的神经网络分类模型,将输入语句 x 映射到类别输出 y。将这个神经网络分类器分解成两个操作的组合,一个是表征函数 r(x),另一个是映射操作符 A:


 其中,r(x) 对于不同的任务 T 是线性可分的。在语言神经科学和其他领域,fMRI 是否线性可分目前还不可知。一种可能性是,描述语言理解行为所必需的区别是可以从 fMRI 数据中提前解码得到的。如果是这样的话,可以利用大脑解码的表现来衡量人类语言理解背后的心理表征与人工神经网络模型中部署的心理表征之间的相似性。

另一种相反的可能性是,如果大脑中支持语言理解的表征不是 fMRI 所能线性解码的,那么可以证明这样一种事实,即句子表征模型的具体化不会降低大脑的解码性能。由此,本文所探讨大脑解码框架可以做到:(1) 区分 NLU 任务作为人类语言理解的表征,(2) 理解 fMRI 成像和线性解码方法的潜在局限性。

模型构建

与前两篇文章的实验组织类似,令受试者读句子,使用 fMRI 记录受试者的大脑活动。对于每个受试者和每个句子,fMRI 图像由一个约 20 万维的向量组成,这个向量描述了大脑中被称为体素的三维小块区域内的近似神经活动。在单个矩阵中收集这些向量,并利用 PCA 将它们压缩到 256 维。使用 BERT 作为提取句子表征的模型:使用一系列多注意操作来计算输入语句中每个标记的上下文敏感性表示。

该模型基于两个任务完成预训练:(1) 一个完形填空语言建模任务,其中给模型一个完整的句子,包含几个屏蔽的单词,预测这些屏蔽单词。(2)下一个句子预测任务,输入两个句子,要求模型预测这些句子在原始语言模型数据中是否为相邻语句。这篇文章使用的也是文献 [1] 中的 BERT 结构,并进行了一系列微调。具体微调操作包括:

  • 针对几个 NLU 任务对预训练的 BERT 模型进行微调,如表 3 所示:


表 3. 用于微调 BERT 的 NLU 任务


  • 自定义微调任务:每个任务都是标准完形填空语言建模任务的修改变化形式,通过这些修改突出选择语言表示的某个特定方面。

  • 置乱语言建模:设计两个语言建模任务来针对输入的细粒度语法表示进行选择,从用于语言建模的语料库样本中置乱单词,以删除关于句法结构的一阶线索。第一个任务 LM-scrambled,在句子中打乱单词;第二个任务,LM-scrambled-para,在段落中打乱单词。通过这种输入置乱处理,可以有效地将完形填空任务转换成一组单词的语言文字处理任务。

  • 词性语言建模:LM-pos 针对输入的细粒度语义表示进行选择,通过要求一个模型只预测一个屏蔽的单词的语音部分,而不是这个单词本身来完成该任务。

  • 语言建模控制:作为对照,我们还继续使用来自 Books Corpus 的文本,对原始 BERT 建模目标进行再次训练。


本文还选择了 GloVe 作为 BERT 的基线对比算法,与 BERT 不同,GloVe 提取的词向量对句子上下文很敏感。

大脑解码

大脑解码器是从对人脑活动的描述到对句子的反应的模型激活的回归模型映射。令 B 表示受试者对评价集中的 384 个句子的大脑反应,G 表示映射,C 表示微调模型的输出表示,β为正则化参数,则有大脑解码函数为在两个空间之间使正则化回归损失最小化的目标函数如下:


对于每个受试者的大脑图像集合和每个目标模型表示,使用嵌套的 8-fold 交叉验证对上述回归模型进行训练和评估。

2、实验情况分析

首先,图 13 给出所有测试的 BERT 和 GloVe 模型的性能。相对于 BERT 基线,在两种评价指标下,微调模型完成脑部解码任务的错误都会增多,以及,对 LM-scrambled-para 自定义任务的微调减少了大脑解码的错误。对控制语言建模任务和 LM-pos 自定义任务进行微调,两个评价指标会产生不一致的结果:MSE 降低,但 AR 没有明显变化。

图 13. 微调 BERT 模型和 GloVe 基线的脑解码性能。

然后,作者对表示进行相似度分析,使用粗粒度模型分析相似度 [3],通过测量模型的成对距离,判断其内容对齐的程度。对于每个任务 j 的每个微调运行第 l 次,计算 C_jl 中每对句子表示行之间的成对余弦相似度,得到向量 D_jl。通过计算 Spearman 相关系数ρ(D_jl,D_j'l'),可以测量从一次运行(j,l)和另外一次运行(j',l')得出的表示之间的相似性。图 14 给出相似度值的热点图,其中每个单元为两个相应模型的不同次运行结果的平均值。

作者由这个实验得到了下面的结论:(1)语言建模微调运行(尤其是两个 LM 置乱的微调)是唯一在彼此之间具有可靠的高相关性的模型;(2)针对同一个任务,语言建模微调多次运行所产生的表示能够得到类似的句子-句子距离预测,而其余模型在运行之间的连贯性较差(请参见对角线矩阵);(3)置乱 LM 微调能够产生在各个运行过程中均稳定的句子表示,以及改进大脑解码任务性能。

图 14. 每个模型产生的句子编码的表示相似性(在-1 和 1 之间;越高则越相似)。

最后,文章给出了关于句法探测任务的实验,该实验测量单词表示可以重现句子的句法分析的程度。图 15 给出了不同微调模型以及基线 GloVe 完成该任务的结果。结果表明,针对 LM-scrambled 和 LM-scrambled-para 进行优化的模型(可以提高大脑解码性能的模型)在微调过程中效果逐渐变差。当然,其性能仍远高于 GloVe 基线的性能。图 16 给出一个具有代表性的示例语句,其中包含从 LM-scrambled(经过 250 个微调步骤)和 GloVe 基线所得到的具有语法分析的代表性例句。在对置乱(scrambled)语言建模任务进行训练时,会舍弃基线 BERT 模型所得到的表示中的很多(但不是全部)语法信息。令人惊讶的是,这篇文章的实验推断,舍弃部分语法信息似乎可以改善大脑解码的性能。

图 15. 跨微调时间的句法探测评估。

图 16. 带有无向句法探测的示例语句解析,由 LM-scrambled 得到的表示(蓝色)和由 GloVe 得到的表示(红色)生成的语句,其中,实线表示正确的相关性预测、虚线表示错误预测。

3、文章讨论

本文作者认为,实验中测试的句子编码任务均未在脑部解码性能上产生显着提高。通过进一步的任务设计和表示分析,作者发现产生语法轻表示的任务(去除掉基线 BERT 表示中的部分与发信息)可显着改善脑部解码性能。本文的结果表明 NLU 模型的空间可以很好地解释人类神经对语言的表达,但同时也表明了 fMRI 人类神经影像学识别细粒度语法信息的能力是有限的。

四、本文小结

这篇文章我们聚焦了一个基础研究问题:理解机器中的自然语言处理和大脑中的自然语言处理之间的关系。因为大脑神经图像的空间和时序性,NLP 模型已经不少被应用到大脑活动分析预测上。另一方面,在机器学习理论领域,目前也有大量的神经网络结构设计、参数调整,或是对 BERT 微调、引入上下文信息,再或是使用专门的数据库训练模型等以尝试和纠错的方法来改进自然语言处理的效果。这篇文章介绍的基础研究问题希望:1. 能理解 NLP 模型黑盒里面的原理,即是否能从 NLP 模型可以提取或者运用一些表征,这些表征能够具有跟人类的大脑工作和分析的记录一样的特性,进而使得 NLP 模型能够真的像人脑一样工作?2. 反过来,能否改进 NLP 的一些参数甚至结构,能使它们更好的做脑活动的预测(甚至自然语言的预测?)

前文提到的 3 篇论文从不同的结论分析了这个问题。其中第 2 和第 3 篇角度有些类似,但最后的输出活动不一样。从我们选择的三篇论文给出的结论可以看到,目前关于 NLP 模型与人类大脑记录匹配的工作已经取得了一定的进展,通过这种对齐、匹配处理,有效利用了 fMRI、MEG 等似乎可以辅助改进 BERT 在大脑活动预测的能力,同时也表明已有的 NLP、NLU 模型的空间可以部分解释人类神经对语言的表达:其中第 1 和第 2 篇从两个角度给出了比较正面的结果。但相对来说第 3 篇的结论比较负面。说明这一问题的研究还有漫长的道路,这几篇文章中的实验都是比较简单和直观的,目前还不能够准确掌握如何优化模型以有效利用大脑中针对语言的多种信息来源,以及如何能够有效训练大脑活动低信噪比数据等等。

作者们也并没有针对机器中的自然语言处理和大脑中的自然语言处理之间的关系给出根本性的理论分析,只是通过实验的方式展示了二者之间可能的联系。但是,这种基础研究使我们看到了在切实的理论指导下改进网络和系统、摆脱黑盒实验的可能,毕竟,用电脑堆叠电脑的方式永远不可能比人脑堆叠人脑的方式更加有效。

分析师介绍:仵冀颖,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别计算机视觉,爱好科研,希望能保持学习、不断进步。

本文引用的参考文献:
[1] Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
[2] Benjamini, Y. and Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal statistical society: series B (Methodological), 57(1), 289–300. 
[3] Nikolaus Kriegeskorte, Marieke Mur, and Peter A Ban dettini. 2008. Representational similarity analysis connecting the branches of systems neuroscience. Frontiers in systems neuroscience, 2:4.
[4] Lerner, Y., Honey, C. J., Silbert, L. J., and Hasson, U. (2011). Topographic mapping of a hierarchy of temporal receptive windows using a narrated story. The Journal of Neuroscience, 31(8), 2906–2915.
入门MITCMUNLP
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

香港科技大学机构

香港科技大学(The Hong Kong University of Science and Technology),简称港科大(HKUST),为东亚研究型大学协会、环太平洋大学联盟、亚洲大学联盟、中国大学校长联谊会、京港大学联盟、粤港澳高校联盟重要成员,并获AACSB和EQUIS双重认证,是一所亚洲顶尖、国际知名的研究型大学。该校以科技和商业管理为主、人文及社会科学并重,尤以商科和工科见长。

ELMo技术

ELMO 是“Embedding from Language Models”的简称, ELMO 本身是个根据当前上下文对 Word Embedding 动态调整的思路。ELMO 采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练;第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的 Word Embedding 作为新特征补充到下游任务中。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

暂无评论
暂无评论~