吕鑫作者

ACL 2019论文 | 为知识图谱添加注意力机制

注意力机制(Attention)是近些年来提出的一种改进神经网络的方法,在图像识别、自然语言处理图网络表示等领域都取得了很好的效果,可以说注意力机制的加入极大地丰富了神经网络的表示能力。

论文原文:

https://arxiv.org/pdf/1906.01195.pdf

01

论文背景

知识图谱(Knowledge Graph)可以用结构化的方式来描述真实世界的知识,如一个三元组(小罗伯特·唐尼,国籍,美国)便能够说明小罗伯特·唐尼的国籍是美国这样一件事实。然而这样的结构化表示并不是很利于计算,因而近些年来知识图谱表示学习受到了广泛的研究。

ConvE[1]和ConvKB[2]等基于卷积神经网络(CNN)的表示学习方法可以为知识图谱生成更丰富和表现力更强的向量表示,也取得了很好的实验效果。但是这些模型仅仅独立地表示每一个三元组,而忽略了三元组周围的邻居中蕴含的复杂语义信息,这在一定程度上限制了这类模型的性能。为此,今天我们要介绍的这篇论文将注意力机制引入到了每个三元组的邻居中,每个实体的表示都与其邻居息息相关。值得注意的是,传统的表示学习模型在进行实体链接预测时,是没有解释性的,仅仅可以给出结果。但是加入了注意力机制后,我们便可以使用每个邻居的注意力权重为模型的预测结果做出一定的解释。

02

论文模型

本篇论文的模型大致可以分为两部分,第一部分为加入注意力机制的编码器(Encoder),第二部分为解码器(Decoder)。论文的重点和主要贡献便是第一部分,加入注意力机制的编码器。

该模型的注意力机制是基于之前的图的注意力网络(GAT[3]),GAT是GCN[4]的一个改进版本,它解决了GCN平等地从邻居中获取信息的缺点。更详细的说,GAT会为一个节点的每条边都学习一个注意力权重,然后按照这些权重从邻居中获取信息:

在上式中,alpha_ij即是连接i和j两个节点的边的权重,N_i是i节点的邻居节点集合,W为一个线性映射矩阵,最终该式输出的便是i节点的邻居化表示。

虽然GAT模型在传统的网络表示学习中很成功,但是还是不太能直接地应用到知识图谱中,因为它显然地忽略了边所蕴含的信息。在知识图谱中,一个实体在链接不同的边时往往有着不同的含义,如上图所示,Christopher Nolan在链接不同的边时可以有兄长或导演的含义。因而该篇论文在GAT的基础上进行了改进,加入了关系的信息。对于每一个三元组,学习一个表示如下:

其中h_i,h_j和g_k分别为头尾实体以及关系的向量表示,W_1为线性变换矩阵。之后经过一个LeakyRelu非线性层,可以得到:

之后可以计算每个三元组的注意力权重

这里N_i为实体i的邻居节点,R_in为链接实体i和n的关系。此外该模型还加入了multi-head attention机制,可以使学习过程更加稳定,并且学习更多的邻居信息。最终每个实体的邻居表示为:

这里M便是代表有M个独立的注意力计算机制,对于关系向量,原论文仅将其乘以一个线性变换矩阵,未再加入注意力机制

此外,在学习实体的邻居表示时,我们损失了实体初始的向量表示,因而在最终输出之前,会将初始的向量表示乘以一个变换矩阵加实体的邻居表示中。最终模型图如下,其中黄色的圆圈代表初始的实体向量,绿色圆圈代表初始的关系向量。原作者的模型图画的有些不清晰明了,若要详细了解还需阅读论文:

论文使用ConvKB作为模型的解码器(Decoder),对于每一个三元组,在上述编码器得到实体和关系向量的基础上,做出如下打分:

其中omega^m为第m个卷积核,模型最终使用soft-margin loss进行训练。

03

论文实验

该论文在FB15K-237、WN18RR、NELL-995和Kinship等数据集上进行了链接预测实验,实验结果如下所示。从表中可以看出,在多数情况下该模型可以达到目前最佳的实验效果,这说明融合邻居信息的表示能够很好的提升模型的性能,注意力机制对于知识图谱也是很有效果的。

参考文献

[1] Dettmers T, Minervini P, Stenetorp P, et al. Convolutional 2d knowledge graph embeddings[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.

[2] Nguyen D Q, Nguyen T D, Nguyen D Q, et al. A novel embedding model for knowledge base completion based on convolutional neural network[J]. arXiv preprint arXiv:1712.02121, 2017.

[3] Veličković P, Cucurull G, Casanova A, et al. Graph attention networks[J]. arXiv preprint arXiv:1710.10903, 2017.

[4] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论ACL 2019知识图谱注意力机制
2
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

推荐文章
暂无评论
暂无评论~