Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

天生一对,硬核微分方程与深度学习的「联姻」之路

微分方程真的能结合深度神经网络?真的能用来理解深度神经网络、推导神经网络架构、构建深度生成模型?本文将从鄂维南、董彬和陈天琦等研究者的工作中,窥探微分方程与深度学习联袂前行的路径。

近日,北京智源人工智能研究院开展了第一次论坛,其以「人工智能的数理基础」这一重大研究方向为主题,从数学、统计和计算等角度讨论了智能系统应该怎样融合数学系统。

在论坛中,北京大学董彬副教授、林伟研究院和张志华教授等研究者从基础出发介绍了「数学」眼中的机器学习是什么样的。而这些数理基础,正好是构建可计算、可泛化、可解释和稳健 ML 系统所必需的。

在众多演讲中,我们发现董彬老师介绍的微分方程非常有吸引力,它对于探索新的深度学习架构、构建更高性能的深度学习模型非常有帮助。因此在这篇文章中,我们重点关注微分方程在深度学习中的应用,看起来,它们确实是天生一对的组合。

微分方程与深度学习

深度学习还能与微分方程相结合?是的,这是一个很有意思的领域,近来也有非常多的研究成果,包括 NeurIPS 2018 的最佳论文。那么什么是微分方程,它结合深度学习又有什么用呢?

按照维基百科的描述:「微分方程是一种数学方程,用来描述某一类函数与其导数之间的关系」,因此一个方程如果同时包含函数及其导数,那么就可以称为微分方程。例如,f'(x) = 2x 就是一个常微分方程,我们可以「看出来」其通解为 f(x)=x^2 +C,其中 C 表示任意常数。

不过深度学习一般也就会用到概率论、线性代数最优化等基础数学,似乎与微分方程没什么关系?其实并不然,如果我们探索网络架构到底与数学的哪些概念是相关的,那么会发现深度神经网络可以理解为一种微分方程。即,深度神经网络架构,就是离散化的微分方程。

因此如果能找到了微分方程与深度网络之间的关系,那么两个领域之间的研究成果就能互相借鉴,也就能找到更高效的深度模型。

此外,深度学习的模型设计缺少系统指导,大多数深度学习模型都缺少可解释性,这也限制了它的应用。如果加上了微分方程,那么网络架构就是数值微分方程,网络训练就是最优控制,神经网络的设计也就能有理论指导了。

如上图所示,比较受关注的是神经网络架构与数值微分方程之间的关系,这个领域早期比较有影响的就是北大、普林斯顿教授鄂维南老师的研究,它首次将残差网络理解为微分方程。北大董彬等研究者在 ICML 2018 中进一步表明 ResNet、PolyNet、FractalNet 和 RevNet 等网络都可以理解为微分方程的不同数值离散方式。

此外,在 NeurIPS 2018 的最佳论文中,陈天琦等研究者提出神经常微分方程,在近似常数级的内存成本上,ODENet 能实现高效的图像分类和生成任务。在 ICLR 2019 中,陈天琦等研究者进一步将微分方程应用到流模型中,从而获得内存效率更高的生成模型

正如董彬老师所言,通过结合微分方程,我们可以从数学角度出发设计网络架构,并分析它们的泛化性能和可解释性。在这篇文章中,我们希望从基本概念到应用,介绍该领域的一些新想法。

数学老师眼中的 ResNet

鄂维南院士是一位主要关注数学领域的研究者,也是北京大学和普林斯顿大学的教授。在 17 年的《Communications in Mathematics and Statistics》中,鄂维南发表了一篇文章,他讨论了使用连续动力学系统建模高维非线性函数的想法,即微分方程与深度学习之间的关系。

以下是该工作的地址:

在这篇「Proposal」中,鄂老师表示深度神经网络可以理解为离散的动力学系统。离散的动力学系统很难分析,但连续的动力学系统在数学上更易于分析,因此它可作为深度神经网络的数学基础。此外,因为有很多种方式离散化动力学系统,所以我们也许能构建更多有意思的模型。例如,动力学系统可以选择自适应的时间步大小,这对应于选择自适应的神经网络层级。

这一篇文章提出了非常多的新洞见,尤其是结合常微分方程与深度残差网络的新视角。下面让我们看看在数学家的眼中,残差网络到底该怎样推导。

离散动态系统:ResNet

因为 DNN 可以视为离散的动力学系统,那么每一步最基础的动力学过程即线性变换加上非线性激活函数,这是最简单的非线性离散动力学系统之一。具体而言对于深度残差网络,我们可以用离散动态系统描述为:

其中 Z_l 和 Z_l+1 为第 l 层的输入与输出,y_l 为第 l 层的辅助变量,h 和 g 为一些映射,它们可以是线性的,也可以是非线性的。对于深度神经网络,如果 g 和 h 是恒等映射,训练会非常顺畅,那么为什么会这样呢?为什么 g 和 h 是恒等映射就能减轻梯度爆炸或消失问题?

实际上,如果令 G 为 g 的逆向映射(inverse map),我们可以将上述动力学系统写为:

为了有一个稳定的训练过程,即梯度不爆炸、不消失,上述方程右边的梯度需要接近于恒等映射。也就是说,梯度由后向前传时,它在量上需要保持稳定。鄂老师表示若令 h 和 g 都为恒等映射,∇G∇h 就逼近恒等映射(F 为较小随机扰动),梯度的传递就非常平稳。

其实若 h 和 g 为恒等映射,那么方程 2.3 就可以写为:

这难道不就是标准的残差连接吗?它不就是如下动态系统的离散化吗?

这里 t 相当于层级 l 的连续化,如果 l 趋向于无穷小,那么按照导数的定义,z_l+1 与 z_l 两层之间的差就趋向于 z 对 t 的导数。所以,可以说残差网络其实就是连续变换的欧拉离散化,它是一个特例。

如果从导数定义的角度来看方程 2.7,当 t 的变化趋向于无穷小时,隐藏状态的变化 dz 可以通过神经网络建模。当 t 从初始一点点变化到终止,那么 z(t) 的改变最终就代表着前向传播结果。

从节选的几步推导,我们可以看到,ResNet 能天然理解为动力学系统,能用微分方程天然表示。但是所有的,或大多数深度神经网络都能这样理解吗?董彬老师做了进一步的研究,他们将这一观点推广到了更多的深度神经网络

其它深度卷积网络又怎样?

北京大学董彬副教授等研究者做了进一步探讨,即 ResNet 与微分方程的这种关系是特例还是一般化的联系。如果数值 ODE 和网络构架的联系建立起来了,董彬老师表示我们就可以从数值 ODE 反推出一些有用的神经网络构架。因为 ODE 已经发展了几十年,有丰富的研究成果可以参考,反推的新架构可能取得更好的效果。

在 ICML 2018 的一项研究中,董彬等研究者表示很多高效的卷积神经网络都能解释为微分方程,并基于微分方程的线性多步解法提出新的线性多步架构,这种结构能提升 ImageNet 等的图像分类任务的性能。

微分方程的解法即网络架构

这里展示了其它卷积网络与微分方程之间的关系,它们在图像识别等任务上都非常有效。如下所示为 ResNet 及其它三种卷积网络架构。

图源:arXiv: 1710.10121

其中 PolyNet 为每个残差模块引入了 PolyInception 模块,从而加强模块的表达能力。PolyInception 模块是 Inception 单元的「多项式」组合,它会以并行或串行的方式集成多条计算路径。FractalNet 以自相似性为基准设计架构,它会重复引用简单的扩展规则,从而生成结构为截断分形(fractal)的深度网络。最后的 RevNet 是一种可逆网络,它不需要在前馈传播中储存中间激活值。

在下表中,董彬老师总结了不同卷积网络对应的微分方程数值解法。其中 ResNet 和 ResNeXt 可视为步长为 1 的前向欧拉离散化,其它卷积网络也对应着不同的离散化方式。

图源:arXiv: 1710.10121

PolyNet

这里我们先看看 PolyNet 怎样搭上微分方程这班车。PolyNet 主要希望提供多样性的架构,因此 PolyInception 除了常规残差模块的一阶路径,还添加了另一条二阶路径。具体而言,PolyInception 模块可以表示为:

其中 I 表示恒等映射,「·」表示作用于,即 F·x 表示非线性变换 F 作用于 x。我们可以看到,PolyInception 多了一个二阶的复合函数,也就是说,如果 F 表示某种 Inception 模块,那么二阶的路径会穿过串联的两个 Inception 模块。在 PolyNet 原论文中,作者展示了可能的 PolyInception 结构:

图源:arXiv: 1611.05725

如上所示,a 和 b 是等价的,F 和 G 表示是否共享参数。董彬老师表示,PolyNet 可以解释为时间步为 1 的反向欧拉方法,实际上前向传播就是在解一个反向欧拉。

不过本身反向欧拉要求解一个非常巨大的非线性方程组的逆,这样无法求解就只能用多项式去逼近解。也就是说,上式的求逆又可以写为:

因此,PolyNet 可以视为采用反向欧拉策略解常微分方程 u_t = f(u) 的逼近方法。如果这样理解,那么它暗示着允许更大的时间步大小,因此这表示我们可以采用更少的残差模块就能构建更好的效果。这正好解释了,为什么 PolyNet 能增加残差模块宽度而降低层级深度,从而实现更好的分类准确度。

此外,从微分方程的角度来说,反向欧拉法要比正向欧拉法有更好的稳定性。这也能从侧面说明为什么在相近参数和计算量下,PolyNet 能实现更好的效果。

FractalNet 与 RevNet

FractalNet 与 RevNet 也都有对应的微分方程「解法」,研究者发现 FractalNet 的宏观架构能解释为数值分析中著名的 Runge-Kutta 方法。例如对于复合次数小于等于 2 的 FractalNet,每一个模块都可以表示为:

其中 f_1 和 f_2 分别表示不同的 Fractal,如果我们看看二阶的 Runge-Kutta 方法,我们就会发现他们的表达式非常相似:

另外的 RevNet 也是一样,因为它是一种可逆的深度网络,所以它有从 X 到 Y 和 Y 到 X 的过程。如果它们分别对应着前向欧拉方法,那么就表示两条简单的动态系统就能描述整个神经网络。此外值得注意的是,虽然深度学习中很少有可逆的双向网络,但是在微分方程中,动态系统的正反向都是可行的。

最后,董彬老师还根据数值微分方程提出了一种新的结构:Linear Multi-step Architecture。他表明加上这种结构,残差网络只需要一半的参数量就能达到相同的训练效果,这表示新结构使卷积网络的训练更高效与稳定,希望了解的读者可查阅董老师的原论文。

神经化的微分方程

微分方程除了为深度网络提供理论解释,并启发架构创新,它还能做一些更炫酷的工作吗?多伦多大学陈天琦等研究者表示,既然残差连接就是常微分方程(ODE)的离散化,那么常规神经网络的前向传播过程岂不就是微分方程给定初值解末值的过程?如果我们用业界成熟的微分方程求解器(ODESolve)解某个 ODE,这不就能代替前传和反传么?

在他们的研究 ODENet 中,研究者使用神经网络参数化隐藏状态的导数,而不是如往常那样直接参数化隐藏状态。这里参数化隐藏状态的导数就类似构建了连续性的层级与参数,而不再是离散的层级。因此参数也是一个连续的空间,我们不需要再分层传播梯度与更新参数

简而言之,ODENet 中的神经网络建模可以表示为下式:

其中 f 表示的是神经网络,h 表示的是隐藏状态。相比而言,常规卷积网络可表示为 h(t+1) = f(h(t), θ)。

如果参数化的是隐藏状态的变化,神经微分方程在前向传播过程中不储存任何中间结果,因此它只需要近似常数级的内存成本。

新颖的前传与反传

其实 ResNet 只不过是简单的欧拉离散化,而近百年来,数学家构建了很多现代 ODE 求解方法。这些新方法不仅能保证收敛到真实解,同时还能控制误差水平。

ODENet 就采用了一种适应性 ODESolver 代替前向传播过程,它不像欧拉法移动固定的步长,相反它会根据给定的误差容忍度选择适当的步长逼近真实解。

如下图所示,左边的残差网络定义有限转换的离散序列,它从 0 到 1 再到 5 是离散的层级数,且在每一层通过激活函数做一次非线性转换。此外,黑色的评估位置可以视为神经元,它会对输入做一次转换以修正传递的值。而右侧的 ODE 网络定义了一个向量场,隐藏状态会有一个连续的转换,黑色的评估点也会根据误差容忍度自动调整。

图源:arXiv: 1806.07366

所以 ResNet 采用的是固定的步长 1,适应性 ODESolver 可以自动估计不同的步长,它的自由度和误差控制都更强一些。

对于新颖的前向传播,我们可以通过两段伪代码了解它与常规方法的不同之处。如下是 ResNet 的简要伪代码,定义 f 为卷积层、T 为残差块的数量:

def f(h, t, θ): return nnet(h, θ_t) def resnet(h): for t in [1:T]: h = h + f(h, t, θ) return h

如下展示的是整个 ODEnet 的伪代码,f 表示的也是神经网络层级。不过它不需要层层堆叠离散的层级,只要通过 ODESolver 求出终止时刻 t_1 的 h 就行了,整个 ODESolver 就是一个黑箱过程。

def f(h, t, θ): return nnet([h, t], θ)def ODEnet(h, θ): return ODESolver(f, h, t_0, t_1, θ)

所以不同之处在于 ODESlover 代替了整个前传过程,这样岂不是无法进行反向传播了?为了「绕过」前向传播中的 ODESolver,陈天琦等研究者采用了一种名为 adjoint method 的梯度计算方法。也就是说,模型在反传中通过第二个增广 ODESolver 算出梯度,其可以逼近按计算路径从前向 ODESolver 传递回的梯度,因此可用于进一步的参数更新。

总之,通过一系列推导,反向传播在不知道中间激活值的情况下,直接求一个微分方程就行了。我们并不需要一层层反向传递梯度,就能直接获得更新参数的梯度。ODENet 的反向传播过程如下伪代码所示:

def f_and_a([z, a], t): return[f, -a*df/da, -a*df/dθ][z0, dL/dx, dL/dθ] =  ODESolver([z(t1), dL/dz(t), 0], f_and_a, t1, t0)

其中 f_and_a 为增广状态的动力学过程,用于求解微分方程。ODESlover 求出来的 dL/dθ 就可以直接用来更新神经网络的权重

ODENet 采用了一种非常新颖的前向与反向传播过程,它和常规的神经网络训练完全不一样。它的优势也体现在这种差异上,因为反向传播不需要保留前传的中间计算结果,所以只需要常数级的内存要求。

微分方程也能搭生成模型

在 ODENet 中,研究者也展示了将微分方程应用到生成模型的前景。因此在 ICLR 2019 中,陈天琦等研究者进一步研究了微分方程如何用于流模型。

目前,最流行的生成模型 GAN 通过生成器与判别器的博弈,从而逼近真实数据的概率密度函数 p(x)。但流模型希望通过一系列可逆转换,明确地学习到数据分布 p(x)。因此,流模型会通过可逆神经网络将数据点从一个简单分布映射到复杂分布。

但基于似然度训练常规流模型需要限制它们的架构,从而使雅可比行列式的计算成本足够小。例如流模型 Real NVP 或 Glow 等,它们对矩阵维度进行分割或使用秩为 1 的权重矩阵进行限制。

ODENet 使用常微分方程定义了一种从隐变量到数据的映射,它可以使用相对低成本的迹运算计算雅可比行列式。后面提出的 FFJORD 进一步发扬了这种观点,它将迹估计和前向传播都定义为了常微分方程,并使用 ODESolver 直接求解。直观而言,FFJORD 的抽象过程可如下图所示:

图源:arXiv: 1810.01367

如上图所示,对于微分方程而言,我们知道初始的随机分布 z(t_0),并系统通过 ODESolver 解出真实图像分布 z(t_1)。如果知道了 z(t_1),那么从中采样就能生成真实图像。

最后,这些方向与成果都表明,微分方程真的可以和深度神经网络相结合。也许以后,微分方程乃至其它数理基础,都能帮助我们构建更鲁棒和可解释性的机器学习系统。

理论微分方程深度学习数学
5
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

伪代码技术

伪代码,又称为虚拟代码,是高层次描述算法的一种方法。它不是一种现实存在的编程语言;它可能综合使用多种编程语言的语法、保留字,甚至会用到自然语言。 它以编程语言的书写形式指明算法的职能。相比于程序语言它更类似自然语言。它是半形式化、不标准的语言。

导数技术

导数(Derivative)是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x_0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x_0) 或 df(x_0)/dx。

深度残差网络技术

残差网络是为了解决深度神经网络(DNN)隐藏层过多时的网络退化问题而提出。退化(degradation)问题是指:当网络隐藏层变多时,网络的准确度达到饱和然后急剧退化,而且这个退化不是由于过拟合引起的。

深度生成模型技术

深度生成模型基本都是以某种方式寻找并表达(多变量)数据的概率分布。有基于无向图模型(马尔可夫模型)的联合概率分布模型,另外就是基于有向图模型(贝叶斯模型)的条件概率分布。前者的模型是构建隐含层(latent)和显示层(visible)的联合概率,然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布,也就是给定一个随机采样的隐含层,模型可以生成数据。 生成模型的训练是一个非监督过程,输入只需要无标签的数据。除了可以生成数据,还可以用于半监督的学习。比如,先利用大量无标签数据训练好模型,然后利用模型去提取数据特征(即从数据层到隐含层的编码过程),之后用数据特征结合标签去训练最终的网络模型。另一种方法是利用生成模型网络中的参数去初始化监督训练中的网络模型,当然,两个模型需要结构一致。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

最优控制技术

最优控制是指在给定的约束条件下,寻求一个控制,使给定的系统性能指标达到极大值(或极小值)。它反映了系统有序结构向更高水平发展的必然要求。它属于最优化的范畴,与最优化有着共同的性质和理论基础。对于给定初始状态的系统,如果控制因素是时间的函数,没有系统状态反馈,称为开环最优控制,如果控制信号为系统状态及系统参数或其环境的函数,称为自适应控制。

线性代数技术

线性代数是数学的一个分支,它的研究对象是向量,向量空间(或称线性空间),线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题;因而,线性代数被广泛地应用于抽象代数和泛函分析中;通过解析几何,线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型,使得线性代数被广泛地应用于自然科学和社会科学中。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

隐变量技术

在统计学中,隐变量或潜变量指的是不可观测的随机变量。隐变量可以通过使用数学模型依据观测得的数据被推断出来。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

陈天琦人物

多伦多大学博士,导师为David Duvenaud。2018年,陈天琦等人的论文《Neural Ordinary Differential Equations》获得此届NeurIPS最佳论文奖,引起了极大的关注。

推荐文章
暂无评论
暂无评论~