本论文关注于通用目的关系抽取,使用Bert进行关系表示,并且提出了Matching the blanks 预训练任务。论文模型在多个数据集上达到了SOTA的结果,并且在小样本的情况下提升明显。
论文题目:Matching the Blanks: Distributional Similarity for Relation Learning
论文原文:https://arxiv.org/pdf/1906.03158.pdf
论文背景
通用目的(General Purpose)的关系抽取器,即能够对任意关系建模的关系抽取器,是信息抽取研究中的愿景。之前提出的构建通用关系抽取器的方法,如用表面形式(Surface Form)来表示关系,或者联合嵌入关系的表面形式和知识库中的关系的方法,都不能够很好地泛化。
论文使用Bert [1]来对文本关系进行表示,并且提出了Matching the blanks的方法来预训练任务不可知(task agnostic)的关系抽取模型。论文的模型在Few-shot关系抽取的数据集FewRel上达到了SOTA的结果,并超过了数据集给定的人类水平,并且在有监督的关系抽取数据集SemEval 2010 Task8、KBP37、TACRED上也达到了SOTA的效果。
论文的贡献主要有两个:
测试了Bert的不同的输入方式和输出方式对关系抽取结果的影响;
提出了关系抽取预训练任务Matching the blanks,在少样本关系抽取任务上效果提升明显。
论文模型
Bert 作关系表示encoder的不同变体
首先考虑Bert的输入方式,即如何在输入中指定两个实体的位置,论文中提出了三种方法:
STANDARD:标准输入,不指定实体位置;
POSITIONAL EMB:位置嵌入,Bert的输入本来就有segment embedding,这里把实体1和实体2所在token的segment type置为1和2,如下图 (c) 的输入部分;
ENTITY MARKER:实体标记,在实体1和实体2的两侧用特殊标记标记实体位置,如下图 (d) 的输入部分。
对于输出方式,即如何从Bert最后一层的输出得到关系表示,论文中也提出了三种方法:
[CLS]:用 [CLS] token的表示作为关系表示;
MENTION POOL:分别对两个实体对应token的表示作max pooling,然后拼接得到关系表示;
ENTITY START:两个实体开始位置特殊标记token的表示,拼接起来作为关系表示。
Bert 不同变体Bert不同输入输出方式组合得到的模型结构如上图所示,论文测试了不同结构在SemEval 2010 Task8、KBP37、TACRED以及FewRel 数据集上的表现,发现ENEITY MARKER输入方式、ENTITY START输出方式(上图 f)在所有测试数据集上的表现都是最好的。之后的实验在这个模型的基础上进行。
Matching the blanks 预训练任务
基于上述假设,如果两个句子中包含相同的实体对,那么它们的关系表示应该尽可能相似,反之相似度应尽可能低。假设两个句子的关系表示分别为 r 和 s,用内积 r^T s 来计算两个关系表示的相似度。
如果给模型输入两个句子,得到关系表示,按照上面的假设,模型只需要句子中实体的信息(比较实体对是否相同)就可以最小化误差。因此,论文按照一定概率(a = 0.7)来把句子中的实体替换为特殊标记 [BLANK],使模型对句子中除实体外的 context 信息进行建模。
预训练任务的loss为Bert Masked Language Model loss以及关系表示相似度的loss,作者表示Bert Masked Language Model loss对模型的训练还是比较重要的。预训练的数据集从 Wikipedia 构建。
论文模型使用Bert Large的参数进行初始化,在Matching the blanks任务上预训练后,再在具体的关系抽取任务上进行fine-tune。
实验结果
不同数据集的测试集F1值在Matching the blanks任务上预训练的Bert模型要优于原来的Bert模型,并且在三个有监督的关系抽取数据集上达到了SOTA的结果。
改变训练集每个关系类别样本数量得到的结果如上表所示,在FewRel数据集上,未在训练集上fine-tune的Bert_em+MTB模型要优于之前SOTA模型。虽然在样本数量较多的情况下Bert_em与Bert_em+MTB表现接近,但Bert_em+MTB只需要很少量的样本便能够达到Bert_em的最好效果。
Matching the blanks预训练使得模型需要更少的标注样例进行fine-tune,更适用于少样本或少资源的场景。
参考文献
[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprintarXiv:1810.04805.](https://www.aminer.cn/archive/5bdc31b417c44a1f58a0b8c2)
[2] Mintz, Mike et al. “Distant supervision for relation extraction without labeled data.” ACL/IJCNLP (2009).](https://aclweb.org/anthology/P09-1113)