从2019 AI顶会最佳论文,看深度学习的理论基础

如果能有一种理论告诉我们什么样的模型架构、运算方式能最好地表示某种数据,什么样的损失函数、迭代方式能最高效地学习到某种能力,什么样的设置又使这种能力能处理各种意外情况。那么,这样的深度学习,乃至机器学习,才是理论基础圆润的大学科。

令人惊喜的是,我们可以看到近来很多前沿研究都越来越系统,越来越有洞见。最明显的是近年举行的 AI 顶会,我们可以看到很多获奖论文都尝试从更基础、更深刻的角度为 DL 打下地基。本文将从 2019 年人工智能顶会的获奖论文出发,为你介绍深度学习的理论基础到底是什么样的,当前又有哪些新发现。

数学基础 ≠ 理论基础

在入门深度学习的过程中,我们经常会听到各种数学名词,线性代数和矩阵微分、概率论与随机过程,似乎要想理解各种模型,首先必须理解这些数学概念。那么这些数学描述不正是深度学习的「理论基础」吗?

这里我们需要明确的是,数学是一种语言、一种工具,使用它描述深度学习并不一定等于构建 DL 的理论基础。这是一种数学基础,而不是整理领域的理论基础。很多深度模型确实都是从数学推导出发,然后得出某些很好的性质,但这只能说明模型是有理论保证的,它们并不能组成深度学习的理论基础。

比如说图卷积网络或变分自编码器,它们最开始都是从数学的角度推导某些性质,后来才根据这样的性质构建整个模型。我们可以说这些模型的理论基础非常坚实,如果我们需要理解它们,同样也需要对应的数学基础。此外,在实际建模时,我们并不一定完全遵循理论推导,可以稍微修改以获得更强的计算效果。

在深度学习中,有很多模型的数学推导都非常优美。也有很多模型从实验与直观概念出发,描述整个学习过程的数学表达。它们都非常重要,但并不能解决深度学习最基本的疑问:为什么深度模型能够高效学习?为什么深度模型要比浅层模型的性质好?为什么深度学习泛化性也不错

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
理论AI深度学习2019 AI顶会
4
相关数据
随机过程技术

在概率论概念中,随机过程是随机变量的集合。若一随机系统的样本点是随机函数,则称此函数为样本函数,这一随机系统全部样本函数的集合是一个随机过程。实际应用中,样本函数的一般定义在时间域或者空间域。随机过程的实例如股票和汇率的波动、语音信号、视频信号、体温的变化,反对法随机运动如布朗运动、随机徘徊等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

线性代数技术

线性代数是数学的一个分支,它的研究对象是向量,向量空间(或称线性空间),线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题;因而,线性代数被广泛地应用于抽象代数和泛函分析中;通过解析几何,线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型,使得线性代数被广泛地应用于自然科学和社会科学中。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

推荐文章
暂无评论
暂无评论~