徐家兴作者

ACL 2019 | 将文本建模为关系图用于关系提取

本文提出了一个端到端的关系提取模型GraphRel,使用GCN和Bi-LSTM编码器学习抽取命名实体及关系,考虑了线性和依赖结构,以及文本的所有单词对之间的隐式特征;通过端到端的实体、关系联合建模,同时对所有实体对进行预测;也考虑到了实体和关系之间的相互作用。

论文原文:https://tsujuifu.github.io/pubs/acl19_graph-rel.pdf

论文背景

提取实体和语义关系是从非结构化文本构建知识结构的核心任务,传统的流水线方法通常是先进行命名实体识别然后对实体关系进行预测,联合学习实体识别和关系抽取能获得更好的效果,但这些联合模型需要进行大量的特征工程。已有的神经网络方法都不是端到端的联合模型,他们假设已知命名实体并预期现实世界的命名实体识别会导致模型表现显著降低。

本文提出了一个端到端的关系提取模型GraphRel,使用GCN和Bi-LSTM编码器学习抽取命名实体及关系,考虑了线性和依赖结构,以及文本的所有单词对之间的隐式特征;通过端到端的实体、关系联合建模,同时对所有实体对进行预测;也考虑到了实体和关系之间的相互作用。


论文模型

GraphRel包括两个阶段的预测,第一个阶段使用Bi-RNN和GCN提取顺序和区域依赖词特征,再通过这些单词特征预测每个单词对的关系和所有单词中的实体。第二个阶段为每一个关系建立一个关系图,再使用GCN使这些关系成为一个整体,从而考虑实体与关系之间的相互作用。

本文使用LSTM作为Bi-RNN单元,对于每一个单词,将其词嵌入与POS嵌入结合起来作为初始特征

其中h^0_u表示单词u的初始特征,Word(u)和POS(u)分别表示单词u的词嵌入和POS嵌入。

由于原始的数据句子没有图结构,本文使用句法依存分析来构建依存关系树,然后使用句子的依存关系树作为输入句子的邻接矩阵,再使用GCN抽取局部依赖特征,需要注意的是,最初的GCN是为无向图设计的,为了同时考虑输入和输出的词特征,这里使用的是[1]的Bi-GCN。

在得到词特征之后就要进行对实体和关系的预测,这里首先移除了依存关系树中的所有边,然后对所有单词对进行预测

对于每一个关系r,可以学到权重矩阵W^1_r、W^2_r、W^3_r,从而计算出关系得分S,再对每一个S(w1,r,w2)应用softmax,从而得到(w1,w2)每种关系的概率P_r(w1,w2)。

第一阶段提取出的实体和关系相互之间没有影响,为了考虑命名实体和关系之间的相互作用,并考虑文本的所有单词对之间的隐含特征,我们提出了一种新的第二阶段关系加权GCN用于进一步提取,这一过程可以表示为:

其中P_r(u,v)表示边的权重(单词u与单词v的关系为r的概率),W_r和b_r表示GCN在r关系下的权重,V和R分别是所有单词和所有关系的集合。此处的Bi-GCN进一步考虑了关系加权传播,并为每个单词提取了更多足够的特征。然后就可以进行命名实体识别和关系分类来实现关系抽取了。

论文实验

本文在NYT[2]和WebNLG[3]数据及上对GraphRel进行了评估

结果表明,本文提出的的方法优于以前的工作3.2%和5.8%,刷新了关系提取的SOTA。同时,从一些案例也可以看出第二个阶段的GCN的确可以达到抽取出更多信息的目的。

参考文献:

[1] Diego Marcheggiani and Ivan Titov. 2017. Encoding sentences with graph convolutional networks for semantic role labeling. In Proceedings of EMNLP.

[2] Sebastian Riedel, Limin Yao, and Andrew McCallum. 2010. Modeling relations and their mentions without labeled text. In Proceedings of ECML-PKDD.

[3] Claire Gardent, Anastasia Shimorina, Shashi Narayan, and Laura Perez-Beltrachini. 2017. Creating training corpora for nlg micro-planners. In Proceedings of ACL.

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论自然语言处理信息检索智能软件命名实体识别关系提取ACL 2019
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

关系提取技术

关系抽取任务需要检测和分类一组工件中的语义关系提及,通常来自文本或XML文档。该任务与信息提取(IE)的任务非常相似,但是IE另外需要去除重复关系(消歧),并且通常指的是提取许多不同的关系。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

推荐文章
暂无评论
暂无评论~