成为机器学习大神,你不能不懂数学

编者按:如何自学机器学习?需要哪些数理基础?怎样从入门到进阶,成就大神之路?对于这些问题,作为毕业后投身机器学习研究的数学博士、微软亚洲研究院机器学习组主管研究员陈薇无疑是最有发言权的。在这篇书单推荐中,她从机器学习综述、算法优化、理论延展、数学基础四大方面入手,为大家提供一份机器学习的“完全指南”。

在这个言必谈“AI”的时代,机器学习是重要的算法内核,而数学是理解和改进机器学习算法的必经之路。因此,我将在这篇文章中梳理机器学习的关键模块和与之联系的数学理论分支,列出一份机器学习的数学书单。

机器学习综述篇

机器学习算法的一般流程,是按照学习问题的性质设计模型,利用优化算法来最小化模型的正则化经验风险,从而学习出最优模型,然后应用到新的测试数据上。根据学习问题、模型、优化算法、正则化方法的不同,学习算法分为许多种类。浏览机器学习算法综述类书籍的目录,就不难发现机器学习的算法体系。以下3本机器学习综述类书籍,能帮助你建立对机器学习的整体认知

1)Pattern recognition and machine learning

作者:Christoper M. Bishop

适合人群:初级到中级学者

推荐指数:★★★★★

主要内容:本书全面介绍了模式识别机器学习,包括近年来的最新发展。如果你对机器学习、统计学、信号处理计算机视觉数据挖掘等方向感兴趣,都可以学习这本书。在打开这本书前,你不需要有模式识别机器学习的知识,但至少要熟悉多元微积分和基本线性代数,有一些概率论知识会更好,书中也会有对基本概率理论的介绍。

推荐理由:这本书浅显易懂,生动形象,较为全面地涵盖了线性回归神经网络、核方法等经典的监督机器学习算法,以及非监督的概率图模型和EM算法,非常适合初步接触机器学习算法的读者们。

2)Neural networks and learning machines

作者:Simon Haykin

适合人群:初级到中级学者

推荐指数:★★★★★

主要内容:本书共15章,是关于神经网络的非常全面的、最新的论述,内容包括Rosenblatt感知器、回归模型、多层感知器、核方法和径向基函数网络、支持向量机正则化理论、信息论学习模型等。

推荐理由:这本书从神经网络讲起,循序渐进,从感知机、多层感知机、径向基函数感知机,过渡到核方法和SVM,然后讨论学习算法与信息论和统计的关联关系,最后介绍动态系统的学习及其与递归神经网络的关系。

3)Deep Learning

作者:Ian Goodfellow, Yuoshua Bengio, Aaron Couville

适合人群:初级到中级学者

推荐指数:★★★★★

主要内容:本书是深度学习领域奠基性的经典教材,包含三部分:一,介绍基本的数学工具和机器学习的概念,作为深度学习的预备知识;二,系统深入地讲解现今已成熟的深度学习方法和技术;三,讨论具有前瞻性的方向和想法,它们是深度学习未来的研究重点。本书适合各个相关专业的学生,以及不具有机器学习或统计背景的软件工程师,来快速补充深度学习知识并将其投入实际应用。

推荐理由:这本书侧重深度学习在2006年再次兴起、获得更大成功之后的新进展,尤其介绍了深度学习自然语言处理语音识别计算机视觉、在线推荐等中的应用,而且包含了表达学习这一研究视角。

机器学习算法优化篇

机器学习算法的最终性能会受到三个因素的影响:模型空间的表达力、优化算法的收敛速率、泛化能力。在表达力方面,除了神经网络的普遍逼近定理之外,定量的研究非常有限。推荐以下3本介绍优化算法的书籍:

1)Convex optimization

作者:Steve Boyd

适合人群:初级到中级学者

推荐指数:★★★★★

主要内容:本书分为理论、应用、算法三大部分。理论部分介绍基础概念、知识和方法;应用部分介绍凸优化在解决逼近与拟合、统计估计和几何关系分析这三类实际问题中的应用;算法部分介绍求解无约束凸优化模型、等式约束凸优化模型以及包含不等式约束的凸优化模型的经典数值方法,以及如何利用凸优化理论分析这些方法的收敛性质。

推荐理由:内容全面,侧重算法,更适合初学者,能够帮助读者对凸优化理论和方法建立完整的认识。

2)Convex analysis and optimization

作者:Dimitri P. Bertsekas et,al.

适合人群:中级到高级学者

推荐指数:★★★★★

主要内容:本书对凸分析及其优化进行了全面的阐述,除此之外,还通过引入一些新的分析视角来重构该主题理论。

推荐理由:本书侧重凸算法的性质,更适合对凸分析感兴趣的学者。

3)The nature of Statistical learning theory

作者:Vladimir Vapnik

适合人群:中级到高级学者

推荐指数:★★★★★

主要内容:本书讨论了统计理论背后的基本思想,包括学习和概括。作者将学习视为基于经验数据的函数估计的一般问题,重点讨论了学习理论及其与统计学的关系,进一步发展了学习理论和SVM算法。 

推荐理由:在泛化方面,除了可以参考综述类书籍的正则化技术章节之外,Vapnik的这本书将泛化性能描述成统计推断问题,提出了著名的VC容度来解答泛化问题,并由此设计了结构风险最小原则,引出SVM算法。

近几年,深度学习的理论受到学术界的广泛关注,希望不远的将来我们能对深度学习的逼近、优化、泛化有更深入全面的了解,涌现出一批深度学习理论的书籍。

机器学习理论延展篇

前文中的机器学习理论均以统计学描述学习算法性能。除此之外,信息论博弈论、计算复杂度的相关理论也与机器学习联系密切,因此在这里推荐一些相关书籍作为机器学习的理论延展。

信息论

作者:Thomas M. Cover, Joy A. Thomas

适合人群:初级到中级学者

推荐指数:★★★★★

主要内容:这本书是信息论领域中的一本简明易懂的教材,对熵、信源、信道容量、率失真、数据压缩与编码理论、复杂度理论、网络信息论和假设检验等进行了介绍,能在理论和应用方面为读者打下坚实的基础。

推荐理由:信息论对理解模型有独特的视角,可以给出非监督概率生成模型的统一体系,也有人尝试用来理解深度学习的信息瓶颈。这本书中概念清楚,内容完整。

博弈论

A course in game theory

作者:Martin J. Osborne, Ariel Rubinstein

适合人群:初级到中级学者

推荐指数:★★★★★

主要内容:本书介绍了博弈论的基本概念和理论基础,由四部分组成:战略博弈、完全信息扩展博弈、不完全信息扩展博弈以及联盟博弈。

推荐理由:随着交互环境中强化学习技术的兴起,博弈论为我们描述或者建立agent的行为提供了有效的概念。这本书中将理论与例子结合,直观易懂。

计算复杂度

Computational complexity:A modern approach

作者:Sanjeev Arora

适合人群:中级到高级学者

推荐指数:★★★★★

主要内容: 这本书涵盖了计算复杂度理论的经典成果和最近的成就,可作为任何感兴趣的读者的自学参考。

推荐理由:计算复杂度刻画了算法的效率,尤其是针对离散的组合优化。如果对与机器学习有重要关系的加密、量子计算感兴趣,可以通过Sanjeev Arora的这本书对计算复杂度有更深入的了解。

数学基础篇

另外,还有极其重要的一点——入坑机器学习的你,别忘了打好数学功底!作为理解和改进机器学习算法的必经之路,数学是一切的基础。从概率论、代数到实变函数,扎扎实实走好每一步,才能让后面的进阶学习更加顺利。

Probability

作者:A.N.Shiryaev

适合人群:初级到高级学者

推荐指数:★★★★★

推荐理由:概率论是统计学和机器学习的基本描述语言,值得好好学习。推荐Probability,这本书不仅内容全面,推导清晰,而且有直观的例子。读者可以跳过书中部分较深入的章节。

高等代数

出版社:高等教育出版社

适合人群:初级到中级学者

推荐指数:★★★★★

推荐理由:代数是处理矩阵问题的主要技术,同时可以帮助深入理解(线性)空间。推荐高等教育出版社的《高等代数》,概念清晰,重要定理及证明完整,并配有大量习题。

此外,实变函数能够帮助我们深入理解收敛、微分、积分,并结合测度论过渡到随机积分和随机微分方程,而随机微分方程是描述随机动态系统的主要技术。泛函分析中算子的概念和四大定理对机器学习很有用处,比如理解Q-learning的Bellman 算子,用压缩映射定理刻画强化学习问题的不动点,等等。因此,以下四本相关书籍也值得大家仔细阅读。

实变函数论

作者:周民强

测度与概率

作者:严士健,刘秀芳

泛函分析讲义

作者:张恭庆,郭懋正

随机微分方程引论

作者:龚光鲁

最后,祝大家学习愉快!

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

入门机器学习
8
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软亚洲研究院机器学习组机构

微软亚洲研究院机器学习组在理论、算法、应用等不同层面推动机器学习领域的学术前沿。我们目前的研究重点为深度学习/增强学习、分布式机器学习和图学习。我们的研究课题还包括排序学习、计算广告和云定价。在过去的十几年间,我们在顶级国际会议和期刊上发表了大量高质量论文,帮助微软的产品部门解决了很多复杂问题,并向开源社区贡献了微软分布式机器学习工具包(DMTK)和微软图引擎,并受到广泛关注。

https://www.microsoft.com/en-us/research/group/machine-learning-research-group/
Ian Goodfellow人物

Ian Goodfellow 是机器学习领域备受关注的年轻学者之一,他在本科与硕士就读于斯坦福大学,师从吴恩达,博士阶段则跟随蒙特利尔大学的著名学者Yoshua Bengio研究机器学习。Goodfellow 最引人注目的成就是在2014年6月提出了生成对抗网络(GAN)。这一技术近年来已成为机器学习界最火热的讨论话题,特别是在最近几个月里,与GAN有关的论文不断涌现。GAN已成为众多学者的研究方向。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

多层感知机技术

感知机(Perceptron)一般只有一个输入层与一个输出层,导致了学习能力有限而只能解决线性可分问题。多层感知机(Multilayer Perceptron)是一类前馈(人工)神经网络及感知机的延伸,它至少由三层功能神经元(functional neuron)组成(输入层,隐层,输出层),每层神经元与下一层神经元全互连,神经元之间不存在同层连接或跨层连接,其中隐层或隐含层(hidden layer)介于输入层与输出层之间的,主要通过非线性的函数复合对信号进行逐步加工,特征提取以及表示学习。多层感知机的强大学习能力在于,虽然训练数据没有指明每层的功能,但网络的层数、每层的神经元的个数、神经元的激活函数均为可调且由模型选择预先决定,学习算法只需通过模型训练决定网络参数(连接权重与阈值),即可最好地实现对于目标函数的近似,故也被称为函数的泛逼近器(universal function approximator)。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

概率图模型技术

在概率论和统计学中,概率图模型(probabilistic graphical model,PGM) ,简称图模型(graphical model,GM),是指一种用图结构来描述多元随机 变量之间条件独立关系的概率模型

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

信息论技术

信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论,又因为它的创始人是香农,故又称为香农信息论。

感知器技术

感知器是Frank Rosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。 Frank Rosenblatt给出了相应的感知机学习算法,常用的有感知机学习、最小二乘法和梯度下降法。

暂无评论
暂无评论~