信息论视角下的深度学习简述,形式化的泛化误差分析

本论文从信息论的角度简要概述了深度学习,试图解决这两个问题:(1) 深度神经网络为什么比浅层网络的泛化能力好?(2) 是否在所有场景下,更深层的神经网络的效果都更好?

论文:An Information-Theoretic View for Deep Learning

论文链接:https://arxiv.org/abs/1804.09060

摘要:深度学习改变了计算机视觉自然语言处理语音识别领域。但还有两个依然模糊的关键问题:(1) 深度神经网络为什么比浅层网络的泛化能力好?(2) 是否在所有场景下,更深层的神经网络的效果都更好?具体而言,令 L 表示某一深度神经网络中的卷积层和池化层层数,n 表示训练样本量,我们可推导出此网络的期望泛化误差上界:

其中,σ>0 为常量,依赖于损失函数; 0<η<1 为另一常量,依赖于每个卷积池化层上的信息损失(information loss);I(S,W) 为训练样本 S 和输出假设 W 间的互信息。据此上界可以得出:(1) 随着神经网络卷积层和池化层个数 L 的增加,期望泛化误差呈指数下降至 0。带有严格信息损失的层(如卷积层),可以降低深度学习算法的泛化误差;这回答了上文中的第一个问题。但是,(2) 算法的期望泛化误差为 0 并不意味着测试误差或 E[R(W)] 很小,因为随着层数增加,用于拟合数据的信息发生损失时,E[R_S(W)] 会增大。这表明「神经网络越深越好」的说法仅在测试误差或 E[R_S(W)] 较小的条件下成立。(3) 我们进一步展示了深度学习算法满足稳定性的弱概念;随着 L 的增加,深度学习算法的样本复杂度会降低。

我们研究了统计学习的标准框架,其中 Z 表示示例空间(instance space),W 表示假设空间(hypothesis space),n 元组 S = (Z_1, Z_2, ..., Z_n) 表示训练样本,所有元素 Z_i 为从未知分布 D 中抽样得到的独立同分布样本。学习算法 A : S → W 可以理解为从训练样本空间 Z^n 到假设空间 W 上的随机映射。利用马尔科夫核 P_W|S 来描述学习算法 A:给定训练样本 S,算法根据条件分布 P_W|S 从 W 中抽取一个假设。

我们引入损失函数  作为某假设预测效果的度量。对任意通过 S 学得的假设 W,我们将期望风险定义为:

将经验风险(empirical risk)定义为:

对学习算法 A,我们定义泛化误差:

泛化误差很小表示学得的假设在训练数据集和测试数据集上表现接近。

在本文中,我们研究了深度学习算法的期望泛化误差,如下:

该期望在联合分布 P_W,S = D^n × P_W|S 上。

我们可得到以下分解:

等式右侧第一项为期望泛化误差,第二项则反映了在期望的角度下,学得假设对训练样本的拟合程度。

在设计学习算法时,我们希望期望风险的期望 E[R(W)] 越小越好。但通常,很难同时令期望泛化误差 G(D,P_W|S) 和期望经验风险 E[R_S(W)] 都很小:如果某个模型对训练样本的拟合过于好,则它在测试数据上的泛化能力就可能很差,这就是「偏差-方差权衡问题」(Domingos, 2000)。惊人的是,根据实证经验,深度学习算法能够很好地同时最小化 G(D, P_W|S) 和 E[R_S(W)]。深度网络的深层架构能够有效地紧凑表征高变函数(highly-varying function),进而令 E[R_S(W)] 很小。但关于期望泛化误差 G(D, P_W|S) 能够保持很小的原因的理论研究依然不明确。

在本文中,我们从信息论角度出发研究深度学习算法的期望泛化误差。我们证明了随着层数增加,期望泛化误差 G(D, P_W|S) 会呈指数下降至 0。在定理 2 中,我们证明了:

其中,L 是深度神经网络中的信息损失层层数;0<η<1 为另一常量,依赖于每个卷积层和池化层上的信息损失;σ>0 为常量,依赖于损失函数;n 为训练样本 S 的样本量大小;I(S, W) 为输入训练样本 S 和输出假设 W 间的互信息。

此结论来自于两个和信息论相关的重要结果。第一个结果是来自于 Ahlswede 和 Gács 1976 年提出的强数据处理不等式(Strong Data Processing Inequalities,SDPI):对于马尔科夫链 U → V → W,如果在映射 V → W 中存在信息损失,则 I(U, V ) ≤ ηI(U, W),其中 η<1,为非负信息损失因子。第二个结果来自于 (Russo and Zou 2015, Xu and Raginsky 2017):对于某个学习算法,输入和输出间的互信息决定了该学习算法的泛化误差。

我们的结果与「偏差-方差权衡问题」并不冲突。尽管随着信息损失层层数增加,期望泛化误差呈指数下降至 0;但由于信息损失不利于拟合训练样本,因此期望经验风险 𝔼[R_S(W)] 会有所增加。这意味着,在设计深度学习算法时,需要更多地关注信息损失和训练误差之间的平衡。

利用输入和输出间的互信息来限制期望泛化误差的范围具有一个好处,它几乎依赖于学习算法的所有方面:数据分布、假设类的复杂度,以及学习算法本身的性质;而证明 PAC 可学习性的传统框架 (Mohri et al. 2012) 则只覆盖了其中一部分方面。如基于 VC 维 (Vapnik 2013)、覆盖数 (Zhang 2002),Rademacher (Bartlett and Mendelson 2002, Bartlett et al. 2005, Liu et al. 2017)、PAC-Bayes (Langford and Shawe-Taylor 2003)、算法稳定性 (Liu et al. 2017, Bousquet and Elissee 2002) 以及稳健性 (Xu and Mannor 2012) 的框架。

本文其余部分组织结构如下:在第二部分,我们在 DNN 和马尔科夫链之间建立了联系;第三部分利用强数据处理不等式推导出深度神经网络中的中间特征表征和输出之间的互信息变化;第四部分给出了主要研究结果:DNN 中基于深度 L 的指数极泛化误差上界;第五部分为主要定理的证明;第 6 部分是总结。

图 1:包含 L 个隐藏层的深度神经网络的层级特征图。

图 2:深度神经网络的特征图构成了一个马尔科夫链。

理论泛化误差马尔可夫链深度学习信息论
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

卷积技术

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息论技术

信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论,又因为它的创始人是香农,故又称为香农信息论。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~