近期知识图谱顶会论文推荐,你都读过哪几篇?

精选 5 篇来自 EMNLP 2018、CIKM 2018、NAACL 2018 和 IJCAI 2018 的知识图谱相关工作,带你快速了解知识图谱领域最新研究进展。本期内容选编自微信公众号「开放知识图谱」。

EMNLP 2018

■ 论文解读 | 刘兵,东南大学博士,研究方向为自然语言处理信息抽取

论文动机

在远程监督任务中,除了语料的错误标注问题,还存在句内噪声单词过多的问题,即多数句子都存在一些与表达关系无关的词汇,这个问题未有人关注。当前研究的另一个问题是,句子特征抽取器采用随机初始化的方法,存在不健壮的问题。

针对句内噪声的问题,本文采用子树解析的方法,去除与表达关系不相关的词汇;针对关系抽取器不健壮的问题,本文采用迁移学习的方法,用实体分类对模型的参数做预训练。

论文模型

本文方法包括三个部分:

1. 子树解析:首先对句子做句法解析,然后找到两个实体最近的共有祖先,最后取以该节点为根节点的子树,保留句子中的这部分,其余部分丢弃;

2. 构造含有多个注意力机制的关系抽取器:采用 BGRU 作为句子语义抽取器,抽取器中添加面向单词的注意力和面向实体的注意力。然后采用面向句子的注意力方法,结合一个实体对对齐的多个句子的信息作为实体对间关系的语义表示,用于后续的关系分类;

3. 参数迁移初始化:将模型部分结构用于实体类型分类任务,训练得到的参数用作关系抽取器相应参数的初始化。

实验

本文实验进行了 held-out evaluation 和 manual evaluation,结果如下图所示,可见取得了较好的效果。

NAACL 2018


■ 论文解读 | 谭亦鸣,东南大学博士,研究方向为知识库问答、自然语言处理 

本文关注任务为面向简单问题的知识库问答(仅用 KB 中的一个事实就能回答问题)。作者将任务划分为实体检测,实体链接,关系预测与证据整合,探究了简单的强基线。

通过基于 SIMPLEQUEST IONS 数据集上的实验,作者发现基本的 LSTM 或者 GRU 加上一些启发式方法就能够在精确度上接近当前最优,并且在没有使用神经网络的情况下依然取得相当不错的性能。这些结果反映出前人工作中,某些基于复杂神经网络方法表现出不必要的复杂性。

论文动机

近期的简单知识库问答工作中,随着神经网络模型复杂性的增加,性能也随之提升。作者认为这种趋势可能带来对网络结构有效性理解的缺失,Melis 等人的研究也佐证了这一点。他们发现,标准的 LSTM 通过适当的调参,就可以得到堪比最新网络模型的性能。

从这一观点出发,作者尝试去除不必要的复杂结构,直到获得一个尽可能简单但是性能优异的模型。

方法

实体检测(Entity Detection) 

实体检测的目标是确认问题相关的实体,可以抽象为序列标注问题,即识别问题中的每个字符是否是实体。考虑到涉及序列处理,采用 RNN 是相对流行的做法。 

神经网络策略上,作者以问句的词嵌入矩阵作为输入,在双向LSTM和GRU上进行实验。因为是构建 baseline,作者并未在网络模型上添加 CRF 层。

神经网络方法则选用 CRF,特征包括:词位置信息,词性标注,n-gram 等等。通过实体检测,可以得到表达实体的一系列关键词(字符)。

实体链接(Entity Linking) 

作者将实体链接抽象为模糊字符串匹配问题,并未使用神经网络方法。 

对于知识库中的所有实体,作者预先构造了知识库实体名称 n-gram 的倒排索引,在实体链接时,作者生成所有候选实体文本相应的 n-gram,并在倒排索引中查找和匹配它们(策略是优先匹配较大粒度的 n-gram)。获取到可能的实体列表后,采用 Levenshtein Distance 进行排序筛选。 

关系预测(Relation Prediction) 

关系预测的目标是确定问题所问的关系信息,作者将其抽象为句子分类问题。对于这个子任务,作者在神经网络方法分别尝试了 RNN 与 CNN 两种。

RNNs:与实体检测类似,作者也采用双向 RNN 与 GRU 构建模型,并仅依据隐状态作为证据进行分类,其他与目标检测模型一致。 

CNNs:这里引用 Kim 等人(2014)的工作,简化为单通道,使用 2-4 宽度做特征映射。 

神经网络方法则采用了逻辑回归策略(Logistic Regression),特征方面选择了两组,其一是 tfidf 与 bi-gram,其二是词嵌入与关系词。 

证据整合(Evidence Integration) 

该任务的目标是从前面生成的 m 个候选实体与 n 个关系中选出 (m!=n) 一个实体-关系组合。 作者首先生成 m*n 个候选组合,考虑到实体检测和关系预测是相对独立的模型,这意味着很多组合意义不大,可以做初步消除。

在组合打分策略上,考虑到知识库中相同的共享节点,比如所有姓名为“亚当斯密”的人,作者对出现频率过高的实体进行打分限制。

实验结果

对比实验基于 SIMPLEQUESTIONS 数据集,并划分数据规模:训练集 75.9K,验证集 10.8K,测试集 21.7K。

作者进行了实体链接、关系预测和 end2end 问答三组实验:

从各组实验的结果可以发现,本文建立的基础结构模型所得到的baseline在三个任务中,均超过了部分较新的工作。

总结

实验结果有效验证了作者的观点,基本的 LSTM 或者 GRU 通过有效的调试,能够在精确度上接近当前最优,而非神经网络方法配合新的特征组合也能够取得相当不错的性能。

CIKM 2018

■ 论文解读 | 黄焱晖,东南大学硕士,研究方向为知识图谱自然语言处理

本文主要关注 Network Embedding 问题,以往的 network embedding 方法只将是网络中的边看作二分类的边 (0,1),忽略了边的标签信息。本文提出的方法能够较好的保存网络结构和边的语义信息来进行 Network Embedding 的学习。实验结果证明本文的方法在多标签结点分类任务中有着突出表现。

研究背景

Network Embedding 的工作就是学习得到低维度的向量来表示网络中的结点,低维度的向量包含了结点之间边的复杂信息。这些学习得到的向量可以用来结点分类,结点与结点之间的关系预测。

论文模型

本文将总体的损失函数分为两块:Structural Loss 和 Relational Loss,定义为:

Structural Loss:

给定中心结点 u,模型最大化观察到“上下文”结点 v 的情况下 u 的概率,C(v) 表示点 v 的“上下文”结点,“上下文”结点不是直接连接的结点,而是用类似于 DeepWalk 中的 random walk 方法得到。通过不断在网络中游走,得到多串序列,在序列中结点V的“上下文”结点为以点V为中心的窗口大小内的结点。

本文采用 skip-gram 模型来定义 Pr(u|v),Φ(v) 是结点作为中心词的向量,Φ‘(v) 是结点作为“上下文”的向量。Pr(u|v) 的定义为一个 softmax 函数,同 word2vec 一样,采用负采样的方法来加快训练。 

Relational Loss:

以前也有方法利用了结点的标签,但是没有利用边的标签信息。本文将边的标签信息利用起来。边 e 的向量由两端的结点 u,v 定义得到,定义为:

其中 g 函数是将结点向量映射为边向量的函数 Rd*Rd->Rd’ ,本文发现简单的连接操作效果最好。

将边的向量信息置入一个前馈神经网络,第 k 层隐藏层定义为:

其中,W(k) 为第 k 层的权重矩阵,b(k) 为第 k 层的偏置矩阵,h(0)=Φ(e)。 

并且将预测出的边的标签与真实的边的标签计算二元交叉损失函数。真实的边的标签向量为 y,神经网络预测的边的标签向量为 yˆ。边的损失函数定义为:

本文算法的伪代码如下:

结果分析

表 1 和表 2 展示了五种方法在两个数据集上结点分类的表现。本文使用了 5%,10%,20% 含有标签的结点。本文考虑到了在现实中,有标签关系的稀有性,所以本文只使用了 10% 的标签数据。

可以观察到即使是很小比例的标签关系,结果也优于基础方法。在 ArnetMiner 数据集上表现得比 AmazonReviews 好的原因是,类似于 ArnetMiner 数据集的协作网络,关系的标签通常指明了结点的特征了,所以对于结点分类来说,高于 AmazonReviewers 是正常现象。

总结

本文的方法相比于以往的 Network Embedding 方法的优势在于,除了利用了网络的结构信息,同时也利用了网络中的边的标签信息。在真实世界的网络中证实了本文的方法通过捕捉结点之间的不同的关系,在结点分类任务中,网络中的结点表示能获得更好的效果。

EMNLP 2018

■ 解读 | 杨帆,浙江大学硕士,研究方向为知识图谱自然语言处理

论文动机

如今的知识图谱规模很大但是完成度不高,long-tail 关系在知识图谱中很常见,之前致力于完善知识图谱的方法对每个关系都需要大量的训练样本(三元组),而新加入的关系其样本数量通常不是很多。

为解决这个问题,本文提出了 One-Shot 场景下的关系学习模型,该模型通过学习实体的 embedding 和相应的局部图结构来获得一个匹配度量函数,最终推导出新的三元组。

论文亮点

本文提出的模型有以下亮点:

1. 只依赖于实体的 embedding 和局部图结构(之前的方法依赖于关系的良好表示);

2. 一旦训练完成便可以预测任何关系(之前的方法需要微调来适应新的关系)。

概念

本文主要针对 (h,r,?) 类型的推测,即从候选集合中选出最合适的 t 来构造新的三元组 (h,r,t),主要符号含义如下: 

G{(h,r,t)}:即原始 KG,三元组集合 

:对应于 G 中的一个关系(任务),每个 Tr 中所有三元组的 r 相同 

:任务集合

:只含有一个三元组

为候选 t 集合 

G':G 的子集,作为背景知识

论文模型

本文模型由两部分组成:

1. Neighbor Encoder:该模块利用局部图结构对(h,t)实体对进行编码,首先对任意 h/t 构建其 one-hop Neighbor set Ne,再利用 Encoding function f(Ne)编码,最后将 h 和 t 的编码连接起来便得到 (h,t) 实体对的表示,f(Ne) 形式如下:

2. Matching Processor:对于候选集 中的每一个,利用 LSTM 计算的相似度,相似度最高的即为对应的 t,迭代过程如下:

实验

数据集

本文的两个数据集 NELL-One 和 Wiki-One 是作者分别基于 NELL 和 Wikidata 构建(选取其中三元组数量在 50~500 之间的关系)。

实验结果 

作者将本文提出的模型(GMatching)与之前基于 embedding 的模型在 NELL-One 和 Wiki-One 两个数据集上进行了比较,结果显示该模型各项指标均优于之前的模型。

总结

本文提出的模型利用实体的局部图结构以及学习度量来匹配实体对,一经训练可以直接适用于预测任何关系,并在 One-Shot 场景下表现出优越性能。

IJCAI 2018

■ 论文解读 | 汪寒,浙江大学硕士,研究方向为知识图谱自然语言处理

论文动机

传统的规则挖掘算法因计算量过大等原因无法应用在大规模 KG 上。为了解决这个问题,本文提出了一种新的规则挖掘模型 RLvLR (Rule Learning via Learning Representation),通过利用表示学习的 embedding 和一种新的子图采样方法来解决之前工作不能在大规模 KG 上 scalable 的问题。

论文亮点

本文亮点主要包括:

1. 采样只与对应规则相关的子图,在保存了必要信息的前提下极大减少了算法的搜索空间和计算量;

2. 提出了 argument embedding,将规则表示为 predicate sequence。

概念

1. closed-pathrule,LHS 记为 body(r),RHS 记为 head(r);

2. support degree of r,满足 r 的实体对个数;

 3. standard confidence 和 head coverage。

论文方法

Sampling Method 

以 head predicate Pt 为输入,把 KG 看成无向图,选择到 Pt 的头尾实体路径长不超过 len-1 的实体和关系组成子图 K’=(E’,F’),后面所有的计算都基于这个子图。 

Argument Embedding 

对于谓词 P,它的 subject argument 定义为所有出现在 subject 上实体的 embedding 的加权平均,object argument 则为尾实体上实体的 embedding 的加权平均,这个主要用在后面的 score function 上,即本文引入了共现的信息。

对于路径 (P1,P2) 来说,P1 的 object argument 与 P2 的 subject argument 应该很相似,这里就应用到了下面说的基于 argument embedding 的 score function。

Co-occurrence Score Function

这个 score function 就是基于上面的 argument embedding,以上图这个长为 3 的 rule 为例,path p=P1,P2 的 embedding 是 P1*P2,之前通用的 synonymy scoring function 就是让 p 和 Pt 的 embedding 相似,再与这个本文提出的 co-occurrence score function,结合起来就是最后的 score function,下图左边的就是利用了路径的同义信息,即 body(r) 的 predicate embedding path 的乘积应当与 head 的 predicate embedding 相似。

Rule Evaluation 

根据 score function 抽出来的 rule 还要进过筛选,具体做法是先排除掉 support degree 小于 1 的 rule,再过滤掉 standard confidence<minSC 和 head coverage<minHC 的 rule。

实验

数据集 

本文的关注点是 scalable,所以选取做比较的数据集都是大规模知识库

实验结果 

作者与 AMIE+ 在三个规模较大的知识库上进行了比较,具体做法是随机选取 20 个 target predicate 进行挖掘,其中 R 是 SC>0.1&HC>0.01 的规则,QC 是 SC>0.7 的规则,结果显示了 RLvLR 在大规模 KG 上的效率和挖掘规则的能力。

总结

本文提出了一种可以在大规模 KG 上可以以较小计算量进行规则挖掘的模型,减少计算量的方式包括子图采样,argument embedding 和 co-occurrence score function。

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论自然语言处理IJCAI 2018EMNLP 2018知识图谱
6
相关数据
逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

伪代码技术

伪代码,又称为虚拟代码,是高层次描述算法的一种方法。它不是一种现实存在的编程语言;它可能综合使用多种编程语言的语法、保留字,甚至会用到自然语言。 它以编程语言的书写形式指明算法的职能。相比于程序语言它更类似自然语言。它是半形式化、不标准的语言。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

特征抽取技术

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

暂无评论
暂无评论~