卢靖宇作者

基于路径的实体图关系抽取模型

本期推荐的论文笔记来自 PaperWeekly 社区用户 @hawksilent本文是曼彻斯特大学发表于 ACL 2018 的工作,文章提出了一种新的基于图的神经网络关系抽取模型。

文章在没有使用任何外部工具的情况下,在 ACE 2005 数据集上对模型进行了测试,并将结果与 SPTree 系统进行了对比。实验结果显示,这篇文章提出的模型与当前最先进的 SPTree 系统相比,两者的性能没有明显的统计学差异。

关于作者:卢靖宇,西安电子科技大学硕士,研究方向为自然语言处理

■ 论文 | A Walk-based Model on Entity Graphs for Relation Extraction

■ 链接 | https://www.paperweekly.site/papers/2289

■ 作者 | Fenia Christopoulou / Makoto Miwa / Sophia Ananiadou

引言

当一句话中存在多种关系时,不同关系之间往往会存在一定的联系,即目标实体对的关系可能会受到同一个句子中其他实体间关系的影响。例如,如下图中虚线所示:“Toefting”既可以通过介词“in”以直接的方式与 “capital”建立关系,也可以通过“teammates”以间接的方式与“capital”建立关系。

因此,在进行关系抽取(RE)时需要同时考虑这些关联关系,借此来对实体之间的依赖关系建模。然而,现有的大多数 RE 模型在抽取关系时往往会忽略不同关系间的这种关联性。

针对这一情况,这篇文章提出了一种基于实体图的神经关系抽取模型,该模型用图的方式来表达一句话中多个实体间存在的多种关系。句子中的实体被表示为图中的节点,实体间的关系则构成图的定向边,模型用一个实体及其上下文来初始化一条边,这样,任意两个实体之间就会形成由多个边连接组成的、长度不等的多条路径。模型通过迭代的方式,将两个实体之间多条路径逐渐聚合为一条直连路径,该直连路径即对应于实体关系的最终表示。

本文的创新点和贡献主要有以下三个方面:

1. 提出一种基于路径的神经图模型,能够处理一句话中存在多种实体及多个关系的关系抽取任务;

2. 提出一种迭代算法,可以将两个实体之间多个不同长度的路径融合为一条直连路径;

3. 通过实验证实,文章提出的模型在不使用任何外部句法工具的情况下,即可达到与当前最先进算法相近的性能。

模型

文章提出的模型由 5 层组成,如下图所示:嵌入层(embedding layer),BLSTM 层(BLSTM Layer),边表示层(edge representation layer),路径融合层(walk aggregation layer),分类层(classification layer)。 

模型的输入为句子中单词的词嵌入,利用这些词嵌入生成实体对的向量表达形式。实体对的表示向量包含以下信息:目标实体对、目标实体对的上下文单词、上下文单词与实体对的相对位置以及实体对之间的路径。在分类器中,这些表示向量将被用于预测实体对的关系类型。

嵌入层

负责生成维度分别为 nw、nt、np 向量,分别对应于单词、实体的语义类型、目标实体对的相对位置。单词和语义类型分别映射为实值向量 w 和 t。目标实体对的相对位置由句子中单词的位置来决定。以第 1 节中的例子为例,“teammates”与“capital”的相对位置为 -3,“teammates”与“Toefting”的相对位置为 +16。文章利用实值向量 p 表示这些相对位置。 

BLSTM

每个句子的词嵌入将输入倒一个双向长短期记忆网络(BLSTM)中,BLSTM 输出一个新的词嵌入 h,该词嵌入考虑了单词的序列信息。对于句子中的每一个单词 t,其在 BLSTM 中前向网络和反向网络的输出将被连接成一个 ne 维向量,即。 

边表示层

BLSTM 输出的词嵌入在这一层将被进一步分为两个部分:目标实体对的表示向量以及目标实体对特定上下文的表示向量

目标实体对的上下文可以用句子中除已知实体外的其余全部单词来表示。实体对的具体表示方法如下:

一个目标实体对包含两个实体 ei 和 ej。如果一个实体由 I 个单词组成,则求这 I 个单词的 BLSTM 向量的平均值,用该平均值作为实体的 BLSTM 向量,即,其中 I 表示组成实体 e 的单词的数量。 

首先,为每对实体创建一个表示向量,然后构造每个实体对的上下文的表示向量。实体 ei 的表示向量由以下几部分连接而成:实体的 BLSTM 向量 ei,实体类型的表示向量 ti,以及实体 ei 与 ej 相对位置的表示向量 pij。类似的,对于实体 ej 用 pji 表示其与实体 ei 的相对位置。最终,实体对可以表示为:。 

然后,构建上述实体对上下文的表示向量。对于目标实体对 (ei,ej) 上下文的每一个单词 ωz,其表示向量由以下几部分连接而成:单词 ωz 的 BLSTM 向量 ez,单词 ωz 的语义类型的表示向量 tz,单词 ωz 与实体 ei、ej 的相对位置的表示向量(ωz 与 ei 的相对位置表示 pzi,ωz 与 ej 的相对位置表示 pzj)。

综上,目标实体对的上下文单词的最终表示为:。对于每一个句子,其所有实体对的上下文表示向量可以用一个 3 维矩阵 C 表示,矩阵的行和列分别对应实体,矩阵的深度对应上下文单词。 

之后,通过注意力机制将每对目标实体的上下文表示向量聚合为一个向量。根据Zhou et al. 2016 提出的方法,计算目标实体对上下文单词的权重,然后计算它们的加权平均值:

其中,表示可训练的注意力向量,α 表示加权向量,为实体对上下文表示向量加权平均后的结果。 

最后,将目标实体对的表示向量与其上下文的表示向量连接起来。通过使用一个全连接线性层,其中 ns<nm,以此来降低结果向量的维度。该向量即为节点 i 和 j 之间的边(或单位路径):

路径融合层

模型的主要目的是通过使用实体之间的间接关系来判断实体之间的直接关系。因此,本层的目标是:将实体对之间的多个不同长度的路径融合成一条路径。为了达成这一目标,模型将一个句子表示成一个有向图,其中图的节点表示句子中的实体,图中的边表示两个节点(实体)之间的关系。

目标实体之间的单位长度路径表示为,以此作为一个基本的构建模块,可进一步用于创建和聚合两个实体之间长度为 l(l≥1) 的路径。

基于路径的算法可以看成两步处理过程:路径构建和路径融合。在第一步处理过程中,通过一种改进的非线性变换将图中两个连续边联合起来:

其中,表示实体 ei 和 ej 之间长度为 λ 的路径,⨀ 表示元素乘法,σ 表示 sigmoid 非线性函数,为一个可训练的权值矩阵。等式 (2) 得到一个长度为 2λ 的路径。 

在路径融合步骤中,模型将初始路径(长度为 λ)和扩展路径(长度 2λ)线性地结合起来:

其中,β 为权重,用于表示路径的重要程度。

综上,当 λ=1 时,利用等式 (3) 可创建一个长度为 2 的路径。之后,取 λ=2,再次使用等式 (3) 创建一个长度为 4 的路径。不断重复上述过程直到达到预期的最大路径长度,即 2λ=l。 

分类层

在整个网络的最后一层,将上一层的输出输入到一个使用 softmax 函数的全连接层:

其中,是权值矩阵,nr 表示关系类型的总数目,br 表示偏置向量。

实验

文章在 ACE 2005 的关系抽取任务数据集上对提出的模型进行了测试。

上表所示为模型与 SPTree 系统在 ACE2005 数据集上性能的比较,第一行为 SPTree 系统得分,第二行为基线模型得分,第三行为使用了注意力机制的基线模型得分,余下三行为文章提出的模型使用不同长度路径时的得分。表中显示了准确率 P、召回率 R 和 F1 得分三项指标。

准确率指标P:虽然准确率并没有随着基于路径的图模型的使用以及路径长度的增加而线性提高,甚至还要低于基线模型,但模型在不同路径长度下的准确率 P 均与 SPTree 系统十分接近,证明基于路径的图模型在关系抽取任务中的有效性,只是性能还有待提升。

召回率指标R:模型召回率随着路径的增加而逐渐提高,直到路径增加到 l=8 时发生回落。说明增加路径长度是提升真正例识别数量的一种有效手段,也从侧面验证了通过实体的间接关系来识别目标实体对直接关系的可行性和有效性。

F1得分:图中,基线模型的 F1 得分为 61.4%,在所有模型中为最低。通过使用注意力机制可以将其 F1 得分提升 1.3 个百分点至 62.7%。在此基础之上,使用基于路径的模型,模型 F1 得分随着路径长度的增加而增加,l=4 时模型 F1 得分最高为 64.2%,当路径长度增加至 8 时 F1 得分出现回落。若仅从 F1 得分指标看,文章模型在关系提取任务中的性能已与当前比较先进的算法十分接近。

下表所示为,在拥有不同实体数量的句子中,使用不同长度路径时模型的 F1 得分。其中,第一行表示路径长度,第一列表示句子中实体的数量。观察可知,当句子中实体数量较少时,基于路径的图模型与普通模型相比优势并不明显,甚至还略显不如。但当句子中的实体数量较多时,基于路径的图模型与普通模型相比性能提升明显,说明基于路径的图模型适用于处理句子中实体数量较多的情况。

除了上述实验之外,文章还将模型与 Nguyen and Grishman 2015 提出的 CNN 模型进行了对比。实验中,将路径长度设置为 l=4,得到的 P/R/F1(%) 分别为 65.8/58.4/61.9,而 CNN 模型相应的得分分别为 71.5/53.9/61.3。对比发现,文章模型的 F1 得分高于 CNN 模型 0.6 个百分点。

总结

当前,在关系抽取任务中使用最多的是 RNNs 及其各种改进算法,但这些方法都没有考虑句子中关系之间的依赖性,在处理句子中存在多个实体对的情况时没有充分利用实体间的间接关系。与这些方法不同,这里介绍的文章,采用基于路径的实体图模型,在识别目标实体对的关系时充分使用实体间的间接关系。

虽然,也有一些其他的算法,也是针对句子中存在多种关系的情况(Gupta et al., 2016; Miwa and Sasaki, 201421; Li and Ji, 2014)。但是,这些算法无法对已知实体路径建模。

本文通过实验,证明了基于路径的图模型在关系抽取任务中的可行性和有效性。虽然从实验结果看,其性能与当前最先进的算法相比还存在一定差距,但是将基于路径的图模型引入关系抽取任务是一种新的思路,对此类模型的研究目前尚未大规模展开,因而模型性能暂时不佳也实属正常,这就为我们下一步开展后续工作提供了研究思路和提升空间。

整体而言,这篇文章的启发性意义大于其模型的实用意义。期待下一步在此思路的基础上进一步提升模型性能。

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

产业ACL 2018
4
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

关系提取技术

关系抽取任务需要检测和分类一组工件中的语义关系提及,通常来自文本或XML文档。该任务与信息提取(IE)的任务非常相似,但是IE另外需要去除重复关系(消歧),并且通常指的是提取许多不同的关系。

真正例技术

被模型正确地预测为正类别的样本。例如,模型推断出某封电子邮件是垃圾邮件,而该电子邮件确实是垃圾邮件。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

推荐文章
暂无评论
暂无评论~