吕志亨作者

ACL 2019 | Matching the Blanks预训练关系表示模型

本论文关注于通用目的关系抽取,使用Bert进行关系表示,并且提出了Matching the blanks 预训练任务。论文模型在多个数据集上达到了SOTA的结果,并且在小样本的情况下提升明显。

论文题目:Matching the Blanks: Distributional Similarity for Relation Learning

论文原文:https://arxiv.org/pdf/1906.03158.pdf

论文背景

通用目的(General Purpose)的关系抽取器,即能够对任意关系建模的关系抽取器,是信息抽取研究中的愿景。之前提出的构建通用关系抽取器的方法,如用表面形式(Surface Form)来表示关系,或者联合嵌入关系的表面形式和知识库中的关系的方法,都不能够很好地泛化。

论文使用Bert [1]来对文本关系进行表示,并且提出了Matching the blanks的方法来预训练任务不可知(task agnostic)的关系抽取模型。论文的模型在Few-shot关系抽取的数据集FewRel上达到了SOTA的结果,并超过了数据集给定的人类水平,并且在有监督的关系抽取数据集SemEval 2010 Task8、KBP37、TACRED上也达到了SOTA的效果。

论文的贡献主要有两个

  • 测试了Bert的不同的输入方式和输出方式对关系抽取结果的影响;

  • 提出了关系抽取预训练任务Matching the blanks,在少样本关系抽取任务上效果提升明显。

论文模型

Bert 作关系表示encoder的不同变体

首先考虑Bert的输入方式,即如何在输入中指定两个实体的位置,论文中提出了三种方法:

  •  STANDARD:标准输入,不指定实体位置;

  • POSITIONAL EMB:位置嵌入,Bert的输入本来就有segment embedding,这里把实体1和实体2所在token的segment type置为1和2,如下图 (c) 的输入部分;

  • ENTITY MARKER:实体标记,在实体1和实体2的两侧用特殊标记标记实体位置,如下图 (d) 的输入部分。

对于输出方式,即如何从Bert最后一层的输出得到关系表示,论文中也提出了三种方法:

  •  [CLS]:用 [CLS] token的表示作为关系表示;

  • MENTION POOL:分别对两个实体对应token的表示作max pooling,然后拼接得到关系表示;

  • ENTITY START:两个实体开始位置特殊标记token的表示,拼接起来作为关系表示。

Bert 不同变体Bert不同输入输出方式组合得到的模型结构如上图所示,论文测试了不同结构在SemEval 2010 Task8、KBP37、TACRED以及FewRel 数据集上的表现,发现ENEITY MARKER输入方式、ENTITY START输出方式(上图 f)在所有测试数据集上的表现都是最好的。之后的实验在这个模型的基础上进行。

Matching the blanks 预训练任务

基于上述假设,如果两个句子中包含相同的实体对,那么它们的关系表示应该尽可能相似,反之相似度应尽可能低。假设两个句子的关系表示分别为 r 和 s,用内积 r^T s 来计算两个关系表示的相似度。

如果给模型输入两个句子,得到关系表示,按照上面的假设,模型只需要句子中实体的信息(比较实体对是否相同)就可以最小化误差。因此,论文按照一定概率(a = 0.7)来把句子中的实体替换为特殊标记 [BLANK],使模型对句子中除实体外的 context 信息进行建模。

预训练任务的loss为Bert Masked Language Model loss以及关系表示相似度的loss,作者表示Bert Masked Language Model loss对模型的训练还是比较重要的。预训练的数据集从 Wikipedia 构建。

论文模型使用Bert Large的参数进行初始化,在Matching the blanks任务上预训练后,再在具体的关系抽取任务上进行fine-tune。

实验结果

不同数据集的测试集F1值在Matching the blanks任务上预训练的Bert模型要优于原来的Bert模型,并且在三个有监督的关系抽取数据集上达到了SOTA的结果。

改变训练集每个关系类别样本数量得到的结果如上表所示,在FewRel数据集上,未在训练集上fine-tune的Bert_em+MTB模型要优于之前SOTA模型。虽然在样本数量较多的情况下Bert_em与Bert_em+MTB表现接近,但Bert_em+MTB只需要很少量的样本便能够达到Bert_em的最好效果。

Matching the blanks预训练使得模型需要更少的标注样例进行fine-tune,更适用于少样本或少资源的场景。

参考文献

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprintarXiv:1810.04805.](https://www.aminer.cn/archive/5bdc31b417c44a1f58a0b8c2)

[2] Mintz, Mike et al. “Distant supervision for relation extraction without labeled data.” ACL/IJCNLP (2009).](https://aclweb.org/anthology/P09-1113)

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论信息抽取BERT论文ACL 2019
3
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

F1值技术

为了能够评价不同算法的优劣,在Precision和Recall的基础上提出了F1值的概念,来对Precision和Recall进行整体评价。F1的定义如下: F1值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)

推荐文章
暂无评论
暂无评论~