ReQuest: 使用问答数据产生实体关系抽取的间接监督

By 机器之心2017年12月07日 10:27

在这篇伊利诺伊大学、南加州大学与上海交大合作的 WSDM 2018 论文中,研究人员提出了一个全新框架:ReQuest,它可以借助问答数据作为实体关系提取的一个间接监督源,这种方法可以用于减少从知识库中产生监督信息而伴随产生的噪声,为关系提取任务提供间接,有效的训练数据。ReQuest 框架可以将隐藏于问答数据 (以及用户反馈信息) 内的关于实体关系的知识迁移到实体关系抽取任务上,提升信息抽取系统的效能。


关系提取是一项重要的任务,通过将非结构化文本数据转换成关系元组作进一步分析,它可以被用于理解大量的文本语料。例如,它可以检测到一句话中的实体「Donald Trump」和「United States」之间的关系是「president_of」。这种信息可以被用于下行文本分析任务中(例如,作为信息提取和知识库(KB)补全的前置步骤,以及辅助问答系统)。


在这篇论文中,为了解决远监督关系提取中存在的问题,我们研究了从外部数据使用间接监督进行关系提取的问题。因此研究提出了一个新的框架--ReQuest。


首先,ReQuest 构造了一个表征异构图来表达三种不同的对象:关系提述(relation mentions)、文本特征(text features),以及由知识库链接做好标签的关系提取训练数据的关系类型(relation types)。其次,ReQuest 构造了为问答数据集构建了第二个表征实体提述对(entity mention pairs)以及特征的异构图,其中实体提述对包括问题和答案实体提述对(question and answer mention pairs)。这两个图通过特征重叠结合成了一个单独的图。我们构造了一个全局目标函数来将这个图嵌入到一个低维空间中。在这个空间中,关系类型语义联系密切的关系提取对象也具有相似的表征,同一个问题下由正面实体(问,答)提述对和链接的问答对象也具有相似的表征。特别地,我们设计了一个新型的边际损失(margin-based loss)来给问答对的相似度进行建模,并且通过共享特征,将这种信息传递到特征和关系类别表征中去。


总结一下,这篇论文的主要贡献如下:


(1)我们提出了一种新型的思想,为关系提取任务从问答数据集中应用间接监督,以帮助消除远监督中的噪声。

(2)我们设计了一个新颖的联合优化架构—ReQuest,来在特定域的语料中提取类型化的关系。

(3)在两个公开的关系提取(RE)数据集上结合 TREC QA 的实验证明 ReQuest 能够显著地提升目前最先进的关系提取系统的性能。


论文:Indirect Supervision for Relation Extraction using Question-Answer Pairs



论文链接:https://arxiv.org/abs/1710.11169


摘要:为了以更加有效的方式解释大量文本语料,对感兴趣的类型进行自动关系提取(automatic relation extraction)是很重要的。传统的 RE(relation extraction)模型在训练的时候严重依赖于人工标注的数据,人工生产标签数据的成本是很高的,而且人工标签会成为处理多种类型关系时的障碍。因此,更多的关系提取系统转向建立在基于通过和知识库链接自动获取的训练数据(远监督方法)。然而,因为知识库的不完整和语境不可知的自动标签的原因,通过远监督(distant supervision)得到的训练数据含有很多噪声。在最近几年,解决问答任务越来越受关注,这类任务的用户反馈和数据集都容易获得了。在这篇论文中,我们提出了一个新颖的框架 ReQuest 来利用问答对(QA pairs)作为关系提取的一个间接监督源,还研究了如何使用这种监督来减少从知识库中产生的噪声。我们的模型将关系提述、类型、问答实体提述对以及文本特征联合地嵌入到了两个低维空间中(关系提取和问答),在这个低维空间中,具有相同关系类型或者语义相似的问答对会拥有相似的表征,共享的特征将这两个空间连接起来,从两个源中传递更加清晰的语义知识。然后 ReQuest 使用这些学习到的向量去估计测试集的关系提述(relation mentions)的类型。我们构造了一个全局目标函数,采用一个新型的边际问答损失指标,通过利用问答数据集中的语义特征去降低知识库所产生的噪声。结合两个公开的关系提取数据集 TERC QA 数据集,我们的实验结果在 F1 score 上达到了 11% 的提升。


3. 方法


框架概览


我们提出了一个基于 embedding 的间接监督框架(如图 2 所示):


(1)给每一个关系提述或者问答实体提述对生成文本特征,然后将四种对象结合起来构造一个异构图,四种对象分别是:关系提取语料中的关系提述,问答语料中的实体提述对,以统一的形式对前面提到的信息进行编码的目标关系类型和文本特征(section 3.1)。

(2)将关系提述、问答对、文本特征和类型标签联合起来嵌入到一个通过共享特征连接在一起的低维空间中,在这个低维空间中关系密切的对象倾向于共享相同的类型或者问题(section 3.2)。

(3)通过搜索目标类型集合 R,为学习到的向量中的每一个关系提述 z 估计类型标签 r ∗(section 3.3)。


图 2. 框架全貌


图 3. 由于自动生成的训练语料中存在噪声,学习到的向量和关系类型之间的联系可能受到错误标签的样本的影响。然而,问答通过逐个交互的思想有潜力从问答语料中重叠的特征里引入额外的语义细节的方法来矫正这种错误。


表 1:论文中用于关系提述的文本特征(基于解析的依存句法特征和实体类型特征)。(「Donald Trump」,「United States」)就是一个示例的关系提述,对应的源句子是:「NYC native Donald Trump is the current President of the United States」。


ReQuest 学习的具体过程可以在 Algorithm 1 中看到:



4. 实验


为了测试我们提出的框架 ReQuest 的有效性,我们把它关系提取任务中用到的其他方法做了比较。精准度、召回率、F1 score 以及模型的学习时间都在两个数据集上做了对比,如表 6 所示。



表 6: 在两个数据集上进行端对端关系提取性能对比(ReQuest 的 F1 score 最高)。


图 4:问答数据集的 F1 score 处理结果。


P_NP-N_NP:正的问答名词短语对+反的问答名词短语对; P_NP-N_NER:正的问答名词短语对+反的问答命名实体对;DepPath:将问答语句转换成 依存句法树上的最短路径;NFromP:从正和反的答句取样反问答对。


任翔,南加州大学(USC)助理教授(曾赴斯坦福大学作访问学者,伊利诺伊大学(UIUC)博士,Google PhD Fellow),2018 年计划招收 2-3 名博士生和数名访问学者。主要研究方向:Machine learning and NLP methods for mining structured knowledge from massive, unstructured data。主要研究问题:非结构化数据上的知识获取 (信息抽取,知识表示与推理,知识图谱构建和应用, 问答系统)。专注方法:weakly-/noisily-supervised methods for sequence modeling, structured prediction, text generation, graph embedding/generation; dual learning and reinforcement learning。感兴趣的同学请 email:xiangren@usc.edu (mailto:xiangren@usc.edu)


声明:本文由机器之心编译出品,原文来自arXiv,转载请查看要求,机器之心对于违规侵权者保有法律追诉权。