原创 2017-08-18 PaperWeekly PaperWeekly
说起关系抽取,就不得不提远程监督(distant supervision),将已有的知识库(比如 freebase)对应到丰富的非结构化数据中(比如新闻文本),从而生成大量的训练数据,从而训练出一个效果不错的关系抽取器。提到远程监督,下面的这篇工作就不得不提:
[1] Distant supervision for relation extraction without labeled data
本文并非第一篇提出远程监督概念的 paper,但是第一个将远程监督概念应用到关系抽取任务中,并且提出了一个著名的假设。
If two entities have a relationship in a known knowledge base, then all sentences that mention these two entities will express that relationship in some way.
这个假设非常的大,其实很多的共现 entities 都没有什么关系,仅仅是出现在同一个句子中;而有的 entities 之间的关系其实并不仅仅只有一种,可能有多种,比如奥巴马和美国的关系,可能是 born in,也可能是 is the president of 的关系。
基于这个假设条件下的关系抽取工作通常都存在两个明显的弱点:
1. 基于文献 [1] 给出的假设,训练集会产生大量的 wrong labels,比如两个实体有多种关系或者根本在这句话中没有任何关系,这样的训练数据会对关系抽取器产生影响。
2. NLP 工具带来的误差,比如 NER,比如 Parsing 等,越多的 feature engineering 就会带来越多的误差,在整个任务的 pipeline 上会产生误差的传播和积累,从而影响后续关系抽取的精度。
关于问题(1)中 wrong labels 的问题,有的工作将关系抽取定义为一个 Multi-instance Multi-label 学习问题,比如工作 Multi-instance Multi-label Learning for Relation Extraction ,训练集中的每个 instance 都可能是一种 label。
而有的工作则是将问题定义为 Multi-instance Single-label 问题,假设共现的 entity 对之间只存在一种关系或者没有关系,一组包括同一对 entities 的 instances 定义为一个 Bag,每一个 Bag 具有一个 label,最终训练的目标是优化 Bag Label 的准确率。第一种假设更加接近于实际情况,研究难度也相对更大一些。
关于问题(2)中的 pipeline 问题,用深度学习的思路来替代特征工程是一个非常自然的想法,用 word embedding 来表示句子中的 entity 和 word,用 RNN 或者 CNN 以及各种 RNN 和 CNN 的变种模型来对句子进行建模,将训练句子表示成一个 sentence vector,然后进行关系分类,近几年有几个工作都是类似的思路,比如:
[3] Relation Classification via Convolutional Deep Neural Network
[4] Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
[5] Neural Relation Extraction with Selective Attention over Instances
[6] Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions
其中 [3] 是用 CNN 对句子进行建模然后进行分类学习,在表示中针对 entity 的位置定义了一种 position embedding,如图 1:
▲ 图1:用 CNN 来建模句子
[4] 是 [3] 的改进工作,对 CNN 的 pooling 进行了专门的改进,如图 2:
▲ 图2:PCNN 是文献 [3] 中 CNN 的改进版
[5] 的工作是在 [4] 的基础上采用了 attention 模型,对每个 Bag 中的 instance 进行了权重的学习,label 正确的 instance 贡献更多的力量,label 不正确的 instance 贡献就低,从而提高了分类的准确率,如图 3:
▲ 图3:基于 attention 的关系分类模型
[6] 是在 [4] [5] 的基础上添加了 entity 的描述信息来辅助学习 entity 的表示,从而提高了准确率,如图 4:
▲ 图 4:利用了 entity 的辅助信息来提升效果
用深度学习来进行解决特征表示的问题效果非常明显,但解决 pipeline 误差传播和积累的问题,其实有一个天然的思路就是 joint learning,将多个 step 的学习整合为同一个 task,从而降低中间过程的误差。近几年有以下几个工作可以关注一下:
[7] Modeling Joint Entity and Relation Extraction with Table Representation
[8] CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases
[9] Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme
[7] 的工作和 [9] 的工作有一些类似的地方,都是将整个任务转化为一种序列标注任务,用自定义的标签重新定义了句子的实体和关系。[9] 的工作是 ACL 2017 的 outstanding paper,用了近几年流行的 seq2seq 来生成和推理标签,效果会比传统的 crf 等算法更好。
▲ 图5:文献 [7] 的标注方法
▲ 图 6:文献 [9] 的标注方法
[8] 的工作是将 entity 和 relation 分别映射在两个向量空间中,然后联合起来对 entity 和 relaiton 进行推理。如图 7:
▲ 图7:CoType 模型图
关系抽取是一类经典的 NLP 任务,也是构建高质量知识图谱的基础,针对关系抽取的研究工作非常多,远程监督是研究中的热点方法,本文收集了一些代表性的工作,即将上线的 PaperWeekly 社区将会推出一个【论文集】的功能,社区用户可以根据自己感兴趣的 topic,收集相关的 paper,我们也会不定期地放出更多精彩的 topic related 的 paper,每篇 paper 都会有用户的笔记、讨论、论文相关的数据集和开源代码, 敬请期待!
参考文献:
[1] Distant supervision for relation extraction without labeled data
[2] Multi-instance Multi-label Learning for Relation Extraction
[3] Relation Classification via Convolutional Deep Neural Network
[4] Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
[5] Neural Relation Extraction with Selective Attention over Instances
[6] Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions
[7] Modeling Joint Entity and Relation Extraction with Table Representation
[8] CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases
[9] Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme