蔡佳文作者萝卜兔编辑

NIF:一种量化神经网络信息流的框架

这篇论文提出了一种解释深度学习模型的新方法。更确切地说,通过将互信息与网络科学相结合,探索信息是如何通过前馈神经网络流动的。虽然现有的可解释性技术阐明了哪些输入特征对模型的预测起到重要的影响,但是现有技术仍然无法从神经元这个级别量化深度网络中的信息流。这仍然不能解决深度学习中最基本的问题之一:在深层网络模型中,从输入特征到每个中间隐藏层神经元有多少信息流动?

这篇论文通过计算互信息,创建一个信息度量量化深度学习模型的任何两个神经元之间的信息流量。提出了一种用于编码信息流的新度量,神经信息流 ( Neural Information Flow,以下简称NIF),其在提供特征归因的同时揭露深度学习模型的内部原理。具体的是通过连续层中神经元之间的神经信息流NIF对信息流进行建模,以揭示深度学习模型如何学习其输入特征的复杂函数。

NIF可以量化神经网络中不同节点之间的信息流动,为了更好的观察,引入网络科学中社区结构和中介中心性的概念。图一展示了在神经网络上运用NIF的效果,左边黑色节点的网络是传统的多层感知网络,右图是经NIF处理后可视化的网络。不同颜色的节点代表网络科学中不同的社区(通过网络科学中的社区结构计算得到),节点的大小对应节点的中介中心性(通过网络科学的中介中心性得到)。节点之间箭头越粗,代表信息流动越大(信息流动通过NIF来量化)。

通过NIF和网络科学的结合,不仅可以看出哪些输入特征对模型的预测产生了影响,还可以很容易的看出输入特征和隐层之间信息流动的大小,同时从输入到输出的决策路径也非常清楚,例如对于输出的最下面的维度,前一层的从上往下数第1,2,4节点对它影响较大,同时第3,5节点几乎没有影响。

图一:传统网络和 NIF 网络

NIF通过互信息的方式来量化神经元之间的信息流动,但是计算互信息一直以来都是一个很难的问题,现有的计算方法只能针对离散随机变量才能有效地精确计算互信息,在连续随机变量情况的时候,只能在限定场景下(如依赖高斯分布近似)才能计算,一般情况下很难计算。为了计算互信息,这篇论文引入<<Mutual Information Neural Estimation>>提出的MINE方法[1]。MINE方法可以使用神经网络梯度下降算法对高维度连续随机变量间的互信息进行估计。

互信息可以用来描述随机变量之间的信息相关度,互信息越大,变量之间的相关度越强,如图二所示:

图二

其中X,Z为两个不同的随机变量,H(X)代表事件X的熵,熵是刻画信息不确定性的一种度量指标,若不确定性越高,熵越大,信息量越大。

条件熵,由图可知互信息I(X,Z)满足:

(1)


因为X,Z为两个随机变量,所以X和Z有对应地概率分布,令是X和Z联合概率分布是边缘概率分布,现有工作表明也可以在分布的角度刻画互信息。如下定义所示:

(2)

互信息用于捕捉变量之间的统计独立性。一个很直观的理解是当X和Z独立时,P(XZ)=P(X)P(Z),此时I(X,Z)为0。倘若X和Z不独立,则联合分布的概率P(XZ)大于边缘分布的乘积P(X)P(Z),此时互信息不为0。

由于条件熵和联合熵满足,则(1)式可推得:

即:

(3)

其中,散度表示两个分布之间的距离,距离越远,散度越大。定义如下:

(4)

为了计算互信息,MINE引入Donsker-Varadhan提出的 KL 散度的对偶表示, 如下式所示:

(5)

其中T是使得上述两个期望值有限的任意函数,sup是指上界,取满足上述限制条件的函数集的一部分子集,由于子集的关系我们取得的不一定包含上界,因此我们可以得到下式:

(6)

观察上式,直观上有个很难理解的地方,就是P和Q的KL散度几乎依赖于一个和P,Q无关的任意的函数。由上式可知,对任意的函数T,不等式成立。根据MINE论文的推导可知函数T必须满足:

其中C为常数,等式才能成立。当T与P,Q无关时,只能取到不等式,而且可能差很远。这很符合神经网络的特性,初始情况下神经网络的效果可能也很差,但是可以通过优化的方法逐步逼近最优解由此启发我们可以通过将T函数看作为神经网络,通过优化神经网络来逼近互信息的值不仅如此,根据万有逼近定理,神经网络可以拟合任意的函数,且神经网络的表达能力保证了它们能以任意精度逼近互信息。将函数T看成参数化的神经网络,因此可以根据公式(7)来拟合 X 和 Z 的互信息。

(7)

尽管神经网络拟合的是一个连续的函数,但是训练的时候,数据只能采用离散的数据样本进行训练,故用采样的方法来代替,当采 n 个样本时,公式(7)可转化为公式(8)表示连续的函数可以用离散的采样来拟合:

(8)

综上,MINE提出了一种用梯度下降的方法去估计连续型分布互信息的方法,完整的算法流程如下:

算法首先随机初始化一个神经网络,然后对联合分布XZ以及边缘分布Z进行采样,算法首先随机初始化一个神经网络,然后对联合分布XZ以及边缘分布Z进行采样,并用采样的数据和作为神经网络的输入,得到的输出并带入公式(8)计算随机变量 X 和 Z 的互信息。一开始,因为的参数是随机初始化的,因此的输出离最优的 T 函数有较大的差距,但通过梯度反向传播算法,逐步更新,就可以逐步逼近最优的T函数,从而根据公式(6)将逼近最优的 KL 散度,即 X 和 Z 的互信息。

 

MINE 方法可以以下界逼近的方式计算两个分布的互信息,但是在神经网络中,由于输入的各个维度特征具有相关性,而 MINE 方法中计算互信息考虑的随机变量 X 和 Z 是独立的,因此不能直接用 MINE 方法计算各个输入特征维度Xi和神经网络神经元 Qk 的互信息,因为 XiXj 之间存在相关性。NIF 在 MINE 的基础上作了改进,如下所示:

(9)

其中  代表输入的某一维特征 ,Qk 代表某个隐藏层神经元。通过(9)式的计算方法,NIF 计算互信息时,不仅包含了输入特征和隐层的关系,也加入了特征之间的相关性,参数  控制的是特征之间的互信息的影响大小。  


实验

如图一所示,在NIF的工作中,除了互信息还用到了网络科学中的几个概念。

1、中介中心度 (Betweenness Centrality):计算经过一个点的最短路径的数量。经过一个点的最短路径的数量越多,就说明它的中介中心度越高。

2、社区结构 (Community Structure):网络中的社区指的是一组紧密连接的节点。直观地,一组节点可以定义为一个社区,如果该组节点之间的连接数远多于随机连接的数量。

实验一将 NIF 可视化使用 ReLU 激活并通过 ADAM 优化的 Iris 数据集进行训练的单层感知器 。很明显,在一个隐藏层中的五个隐藏神经元中,只有三个是模型最终预测的核心。这些结果很直观且有意义,因为那些节点上的 ReLU 激活为零(参见图三(b)):因此,可以推断 ReLU 有效地抑制了流经网络的信息。此外,图三(b)证实了节点 3 和 5 处的激活分布为零,因此在NIF模型中没有连接。

图三

实验二对 Banknote 数据集执行类似的分析,结果如图四所示。可以看到从第一特征到隐藏层节点五的强大信息传播,以至于两个节点都属于他们自己的社区。利用图四(b)中的激活分布,证实了所有中心节点对模型预测的同等重要性。

图四

为了显示NIF在大网络上的推广能力,实验三在Banknote数据集上训练了一个带有ReLU激活的双层网络。如图五所示,我们发现每层两个节点为零,这意味着由于使用ReLU激活,存在固有地被抑制的信息路径。

图五

为了验证 NIF 的度量的有效性,文中还作了两个验证实验

1、删掉 NIF 认为没有信息流动的节点(即把节点权重全部置位0),并没有出现精度下降的情况。

2、为了验证 NIF 的量化效果,计算输入特征 Xi  对输出 Yi 的影响,计算公式如下所示:

其中,P是神经信息流网络中从输入 Xi 到类 Yj 的所有有向路径的集合,L是每条路径上的链路集。


将 NIF 与当前特征归因技术 SHAP[2]和综合梯度[3]进行比较。使用两个样本 Kolmogorov-Smirnov 检验两个经验分布之间的拟合优度,发现NIF超过了当前的基准,这意味着 NIF 可能来自与输入和输出类之间的原始互信息相同的分布。这证明 NIF 方法是可行的。


作者简介

蔡佳文:中南大学硕士生二年级,研究方法是基于图神经网络的算法设计。

参考文献

1、Belghazi, M. I.; Baratin, A.; Rajeshwar, S.; Ozair, S.; Bengio, Y.;Courville, A.; and Hjelm, D. 2018. Mutual information neural estimation. In Proc. ICML, volume 80, 531–540. PMLR.

2、Lundberg, S. M., and Lee, S.-I. 2017. A unified approach to interpreting model predictions. In Advances in Neural Information Processing Systems 30. 4765–4774.

3、Sundararajan, M.; Taly, A.; and Yan, Q. 2017. Axiomatic attribution for deep networks. In Proc. ICML, volume 70, 3319–3328. PMLR.


极验
极验

极验是全球顶尖的交互安全技术服务商,于2012年在武汉成立。全球首创 “行为式验证技术” ,利用生物特征与人工智能技术解决交互安全问题,为企业抵御恶意攻击防止资产损失提供一站式解决方案。

理论权重基准深度学习图神经网络
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

条件熵技术

在信息论中,条件熵描述了在已知第二个随机变量 {\displaystyle X} X 的值的前提下,随机变量 {\displaystyle Y} Y 的信息熵还有多少。同其它的信息熵一样,条件熵也用Sh、nat、Hart等信息单位表示。基于 {\displaystyle X} X 条件的 {\displaystyle Y} Y 的信息熵,用 {\displaystyle \mathrm {H} (Y|X)} \mathrm{H} (Y|X) 表示。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

多层感知机技术

感知机(Perceptron)一般只有一个输入层与一个输出层,导致了学习能力有限而只能解决线性可分问题。多层感知机(Multilayer Perceptron)是一类前馈(人工)神经网络及感知机的延伸,它至少由三层功能神经元(functional neuron)组成(输入层,隐层,输出层),每层神经元与下一层神经元全互连,神经元之间不存在同层连接或跨层连接,其中隐层或隐含层(hidden layer)介于输入层与输出层之间的,主要通过非线性的函数复合对信号进行逐步加工,特征提取以及表示学习。多层感知机的强大学习能力在于,虽然训练数据没有指明每层的功能,但网络的层数、每层的神经元的个数、神经元的激活函数均为可调且由模型选择预先决定,学习算法只需通过模型训练决定网络参数(连接权重与阈值),即可最好地实现对于目标函数的近似,故也被称为函数的泛逼近器(universal function approximator)。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

边缘概率技术

边缘概率又称边缘分布,指在多维随机变量中,只包含部分变量的概率分布,边缘分布中实际上进行了降维操作。

量化神经网络技术

网络量化通过减少表示每个权重所需的比特数来压缩原始网络。Gong et al. 对参数值使用 K-Means 量化。Vanhoucke et al. 使用了 8 比特参数量化可以在准确率损失极小的同时实现大幅加速。Han S 提出一套完整的深度网络的压缩流程:首先修剪不重要的连接,重新训练稀疏连接的网络。然后使用权重共享量化连接的权重,再对量化后的权重和码本进行霍夫曼编码,以进一步降低压缩率。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

反向传播算法技术

反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

感知器技术

感知器是Frank Rosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。 Frank Rosenblatt给出了相应的感知机学习算法,常用的有感知机学习、最小二乘法和梯度下降法。

推荐文章
暂无评论
暂无评论~