百页课程笔记,统计物理视角下的深度学习

墙内开花墙外香,深度神经网络不仅给计算机学科带来了巨大的变革,也同时在其他学科中引起巨大的反响,数学、物理、生物、天文等领域的师生纷纷开启了自学机器学习之路,有先见知名的院校则已经开始为他们的师生开设相关课程,机器学习在不久的将来甚至有可能会被列入各高校理工专业的必修学科之列。

近日,哥德堡大学物理系 Bernhard Mehlig 教授在 arXiv 上发布了他的一本「新书」《Artifical Neural Networks》。这本书正是他根据在哥德堡大学物理系 2018 秋季学期教学(FFR315)过程中的笔记整理而成。在这门课程中,他结合物理学(特别是统计物理学)的知识详细讲述了机器学习神经网络在物理学中的各种应用,包括深度学习、卷积网络、强化学习,以及其他各种有监督和无监督机器学习算法。

  • 下载地址:https://arxiv.org/pdf/1901.05639.pdf

  • FFR315 课程:http://physics.gu.se/~frtbm/joomla/index.php?option=com_content&view=article&id=124&Itemid=509

书很薄,只有 157 页,但相比目前市面上机器学习相关的书却极具特色。第一,他讲了许多当前流行书籍中很少涉及的内容,例如 Hopfield 网络;其次,书的内容主要是面向物理(特别是统计物理)的,可以说这是一本为物理学领域的师生所写的一本机器学习参考书。

从 Hopfield 网络说起

总体而言,这本 157 页的书从 Hopfield 网络Hopfield 网络监督学习和无监督学习三个主题介绍人工神经网络。其中监督学习介绍了我们熟悉的深度学习,无监督学习介绍了径向基函数网络和强化学习。而第一部分的 Hopfield 网络重点介绍了我们并不熟悉的确定性和随机性 Hopfield 网络,以及「贼复杂」的随机优化,可能对物理学来说这些恰好是简单的东西吧~

每一部分包含多个章节,且每一个章节都带有练习题和自测题,它们是检验章节掌握度的最好方法。此外从内容上而言,Hopfield 网络是比较有特点的部分,因为像花书《Deep Learning》等流行的教材并不会单独介绍这一内容。可能我们对它的理解还是根据 Hinton 2012 的神课而获得,即 Neural Networks for Machine Learning。所以如果想要了解早期人工神经网络的研究与发展,那么看这一部分就对了。

Hopfield 网络是一种可以识别或重构图像的人工神经网络,它通过某种方法(Hebb 规则)分配权重,并将图像储存在人工神经网络中。这是一种非常经典的想法,它构成了玻尔兹曼机和深度信念网络等方法的基础,但目前深度神经网络能代替它完成模式识别任务。

作者表示课程将 Hopfield 网络作为第一部分主要有三个原因,首先很多后续的深度神经网络都基于相同的构建块,以及与 Hebb 规则相近的学习方法。其次 Hopfield 网络可以很好地解决最优化问题,且最终算法与马尔可夫链蒙特卡洛方法密切相关,这在物理及统计学上非常重要。最后,Hopfield 网络与物理的随机系统密切相关,可能这也是最重要的吧。

后面两部分就是我们比较熟悉的有监督与无监督学习了,它们从感知机开始逐步向全连接网络、卷积网络和循环网络过渡,这也是大多数课程与书籍的学习路径。

非物理,慎入

正如前面提到,这是一本物理学(统计物理)与机器学习的结合。虽然书的重点是机器学习,但落脚点仍然是物理。一方面,在其行文落笔之间充斥着不少物理学中的语言,例如这样:

这些对学过量子力学的读者来说没有任何障碍,但对于非物理专业的读者却可能是不小的门槛。

如下展示了整本书的目录:

入门深度学习Hopfield网络神经网络
5
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

随机优化技术

随机优化(SO)方法是生成和使用随机变量的优化方法。 对于随机问题,随机变量出现在优化问题本身的表述中,其涉及随机目标函数或随机约束。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

运筹优化技术

最优化问题(英语:Optimization problem)在数学与计算机科学领域中,是从所有可行解中寻找最优良的解的问题。根据变数是连续的或离散的,最佳化问题可分为两类:连续最佳化问题与组合优化。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

玻尔兹曼机技术

玻尔兹曼机(Boltzmann machine)是随机神经网络和递归神经网络的一种,由杰弗里·辛顿(Geoffrey Hinton)和特里·谢泽诺斯基(Terry Sejnowski)在1985年发明。玻尔兹曼机可被视作随机过程的,可生成的相应的Hopfield神经网络。它是最早能够学习内部表达,并能表达和(给定充足的时间)解决复杂的组合优化问题的神经网络。但是,没有特定限制连接方式的玻尔兹曼机目前为止并未被证明对机器学习的实际问题有什么用。所以它目前只在理论上显得有趣。然而,由于局部性和训练算法的赫布性质(Hebbian nature),以及它们和简单物理过程相似的并行性,如果连接方式是受约束的(即受限玻尔兹曼机),学习方式在解决实际问题上将会足够高效。它由玻尔兹曼分布得名。该分布用于玻尔兹曼机的抽样函数。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

马尔可夫链技术

马尔可夫链,又称离散时间马尔可夫链,因俄国数学家安德烈·马尔可夫得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。

推荐文章
暂无评论
暂无评论~