思源 刘晓坤编辑

线性代数与数据学习:MIT教授Gilbert Strang帮你打下坚实的数学基础

MIT 教授 Gilbert Strang 最新书籍《线性代数与数据学习》(Linear Algebra and Learning from Data)将在 1 月中旬发行。这一本书为机器学习提供了很多数学基础,它同时也提供了深度学习一些基本概念。可以说借助这本书,我们能从数学的角度来理解流行的模型。

书籍主页:http://math.mit.edu/~gs/learningfromdata/

这本书的目的是解释数据科学机器学习所依赖的数学:线性代数最优化、概率论和统计学。因为在机器学习中,学习函数中的权重会以矩阵形式表示,这些权重通过随机梯度下降优化,而「随机」一词提示训练收敛是概率性的。此外,概率论中的大数定律被扩展到了大函数定律:如果架构设计良好并且参数计算良好,则有很高的概率能成功收敛

请注意这不是一本关于计算或编码或软件的书。已经有很多书籍对这些方面做了很好的介绍,比如《Hands-On Machine Learning》;还有很多 TensorFlow、Keras、MathWorks 和 Caffe 等的在线资源,也能提供很多帮助。

线性代数有众多美妙的矩阵变体:对称矩阵、正交矩阵、三角矩阵、Banded 矩阵、转置矩阵和正定矩阵等等。在 Gilbert 的教学经验中,他认为正定对称矩阵 S 是非常美妙的东西。它们有正的特征值λ和正交的特征向量 q,它们的线性组合可以将秩为 1 的简单映射 qq^T 与对应特征值重构正定矩阵 S,即:

如果 λ_1>=λ_2>=...,那么上式特征值λ_1 以及对应的特征向量组成的第一个分量就是 S 最具信息的部分。对于一个简单的协方差矩阵,这一部分就对应着对大的方差,这也是降维算法 PCA 最核心的思想。

此外,在书籍主页中,作者还提供了试读的样章,包括深度学习、书籍前言、目录、矩阵初等变换、矩阵乘法和其它一些从矩阵看卷积网络等新知识。作者表明书籍主页会持续更新,包括印刷计划和全本开放阅读等。

William Gilbert Strang

William Gilbert Strang,美国数学家,在有限元理论、变分法、小波分析线性代数等方面皆有研究贡献。他对数学教育做出了许多贡献,包括出版七本数学教科书和专著。斯特朗现任麻省理工学院数学系 MathWorks 讲座教授。主要讲授课程为线性代数入门(Introduction to Linear Algebra,18.06)和计算科学与工程(Computational Science and Engineering,18.085),这些课程都可在麻省理工学院开放式课程中免费学习。

以下是这本书的目录:

理论书籍线性代数
5
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

小波分析技术

小波分析(英语:wavelet analysis)或小波变换(英语:wavelet transform)是指用有限长或快速衰减的、称为“母小波”(mother wavelet)的振荡波形来表示信号。该波形被缩放和平移以匹配输入的信号。

大数定律技术

在数学与统计学中,大数定律又称大数法则、大数律,是描述相当多次数重复实验的结果的定律。根据这个定律知道,样本数量越多,则其算术平均值就越趋近期望值。大数定律很重要,因为它“保证”了一些随机事件的均值的长期稳定性。

协方差矩阵技术

在统计学与概率论中,协方差矩阵(也称离差矩阵、方差-协方差矩阵)是一个矩阵,其 i, j 位置的元素是第 i 个与第 j 个随机向量(即随机变量构成的向量)之间的协方差。这是从标量随机变量到高维度随机向量的自然推广。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

线性代数技术

线性代数是数学的一个分支,它的研究对象是向量,向量空间(或称线性空间),线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题;因而,线性代数被广泛地应用于抽象代数和泛函分析中;通过解析几何,线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型,使得线性代数被广泛地应用于自然科学和社会科学中。

正定矩阵技术

在线性代数里,正定矩阵是埃尔米特矩阵的一种,有时会简称为正定阵。在线性代数中,正定矩阵的性质类似复数中的正实数。与正定矩阵相对应的线性算子是对称正定双线性形式(复域中则对应埃尔米特正定双线性形式)。

对称矩阵技术

在线性代数中,对称矩阵(symmetric matrix)是一个方形矩阵,其转置矩阵和自身相等。对称矩阵中的右上至左下方向元素以主对角线(左上至右下)为轴进行对称。

推荐文章
暂无评论
暂无评论~