苏涛作者萝卜兔编辑整理

GAT: Graph Attention Network | 论文分享

本文作者提出GATs方法,利用一个隐藏的self-attention层,来处理一些图卷积中的问题。不需要复杂的矩阵运算或者对图结构的事先了解,通过叠加self-attention层,在卷积过程中将不同的重要性分配给邻域内的不同节点,同时处理不同大小的邻域。作者分别设计了inductive setting和transductive setting的任务实验,GATs模型在基线数据集Cora、Citeseer、Pubmed citation和PPI数据集上取得了state-of-the-art的结果。

GAT

将卷积泛化到图表数据领域的方法可以分类为谱方法和非谱方法。其中,谱方法是基于图的谱表达,这类方法已经成功的运用在上下文节点分类上。非谱方法直接在graph上定义卷积,核心是定义一个函数,它作用在中心节点的邻居集合上,并且保留权重共享的属性,这个里每个中心节点邻居集合的大小不确定。Attention机制多用于基于序列的任务中。Attention机制的特点是,它的输入向量长度可变,通过将注意力集中在最相关的部分,以此做出决定。attention机制结合RNN或者CNN的方法,在许多任务上取得了不错的表现。

基于这两个方面的工作,作者提出了基于attention的图卷积架构,在图结构数据上实现节点的分类。主要方法是,通过遵循self-attention策略,邻域节点参与计算每个中心节点的隐含表达。

先构建一个基础的block,整个graph attention网络都是基于这个block叠加构建的。这个基础block叫做graph attention layer。

layer的输入是N个长度为F的特征向量,。输出是N个长度为F'的特征向量,。要得到充分的,将输入特征转化为高级特征的表达能力,至少需要一个线性变换。共享线性变换权重矩阵,运用在所有节点上。再为每个节点加上self-attention。这是一个共享的attention机制,a将两个长度为F'的向量转化为一个标量,作为attention系数。

上式表示的意义是,节点j的特征,对节点i的重要性。在普遍情况下,对于注意力机制,允许其他所有节点参与目标节点特征的计算,也就是说不考虑图结构信息。这里,通过masked attention注入图结构信息,这样一来,对于节点j,只计算节点j的邻居节点i 的注意力系数。这里邻居节点只考虑一度邻居,为了使注意力系数更容易比较,使用softmax将其归一化。 

作者的实验中,注意力机制a是一个权重向量a参数化的单层前馈神经网络。网络使用非线性函数LeakyReLU作为激活函数。注意力系数的完整计算公式如下。 

其中表示转置,||代表连接操作。

一旦得到归一化的关注系数,就利用关注系数与对应的节点特征做线性变换,再进行一次非线性变换后,作为节点特征的输出。

对于节点i,它的一阶邻居节点集合为,根据节点i对每个邻居节点j的关注系数,计算节点i的输出

为了保证注意力机制的稳定性,执行mult-head attention,同时执行三个相互独立的attention机制,并将三次的输出结果concat或者计算平均。 

在最后一层网络,如果执行多头attention机制,concat将不再合适,此时,在最终的非线性判断函数之前,计算平均 :

实验

作者设计了四个graph based数据任务,执行了GAT模型与一系列强大的baseline方法的比较评估。在Transductive和Inductive的配置下,GATs方法均达到state-of-art的效果。

在transductive的任务中,比较平均分类准确度。为了公平的评估注意力机制的优势,作者进一步评估了一个计算64个隐含特征的GCN模型,并同时尝试了ReLU和ELU激活。由表1,GAT方法在数据集Cora、Citeseer的分类准确度比GCNs高1.5%和1.6%。这说明,将不同的权重分配给邻域内不同的邻居能够有效提高模型表达能力。

对于Inductive任务,取两个模型从未见过的graph测试,比较节点的F1-score。在PPI数据集上,GAT模型的表现比GraphSAGE的最好成绩还要高20.5%,GAT模型具有良好的inductive setting运用潜力。 

参考论文:
https://arxiv.org/pdf/1710.10903.pdf

极验
极验

极验是全球顶尖的交互安全技术服务商,于2012年在武汉成立。全球首创 “行为式验证技术” ,利用生物特征与人工智能技术解决交互安全问题,为企业抵御恶意攻击防止资产损失提供一站式解决方案。

理论前馈神经网络注意力机制GAT
2
相关数据
激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

LeakyReLU技术

ReLU是将所有的负值都设为零,保留正值;相反,Leaky ReLU是给所有负值赋予一个非零斜率,即x<0时,y=α·x。

推荐文章
暂无评论
暂无评论~