陈萍、杜伟报道

涵盖逻辑回归、贝叶斯等算法,一本关于ML在线免费书籍,值得一读

一本关于机器学习的免费在线书籍,涉及多种算法完整推论,欢迎查收。

提到机器学习领域的书籍资源,大家比较熟悉的有周志华老师的《机器学习》(西瓜书)、李宏毅老师的「宝可梦课程」等等。此外不同学习阶段的学生也能够找到适合自身的机器学习基础和进阶书籍资源。

周志华西瓜书。

近日,本科毕业于哈佛大学统计学与经济学专业、现任哈佛助教的 Daniel Friedman 开放了他撰写的一本免费在线书籍《Machine Learning from Scratch》,该书从理论和数学上介绍了 ML 最常见算法(OLS、逻辑回归朴素贝叶斯、决策树、boosts 和神经网络等)的完整推论。


书籍地址:https://dafriedman97.github.io/mlbook/content/introduction.html

该书是为读者学习新的机器学习算法或了解更深层次的算法。具体地说,它是为那些有兴趣学习机器学习算法的读者准备的。这些推导可能有助于读者,特别是对基础算法不熟悉的读者,可以更直观地理解它们是如何工作的。或者,这些推导可以帮助有建模经验的读者理解不同算法是如何创建模型,以及每种算法的优缺点。

书籍概述

这本书涵盖了机器学习中最常见的方法。这些方法就像一个工具箱,为那些进入机器学习领域的人提供了便利,从而可以很快地找到所需工具。该书由 7 个章节以及 1 个附录组成。书的每一章节都对应一种机器学习方法或一组方法。

通过学习,你将学得:普通线性回归、线性回归扩展、判别分类器(Logistic 回归)、生成分类器(朴素贝叶斯)以及决策树等算法的完整推论。

书籍目录如下:


与此同时,每个章节均由 3 部分内容组成,分别是概念、构建和实现,如下图所示。

每个章节均由这 3 部分组成。

其中,概念部分从概念上介绍这些方法,并从数学上推导结果;构建部分展示了如何使用 Python 从头开始构建方法;实现部分介绍了如何使用 Python 中的工具包(如 scikit-learn、statsmodels 和 tensorflow)应用这些方法。

为什么选择这本书?

现在关于机器学习的书籍数不胜数,在网上就可以免费获得。像《An Introduction to Statistical Learning》、《Elements of Statistical Learning》 和 《Pattern Recognition and Machine Learning》,这些机器学习书籍的作者掌握的知识更丰富,书籍内容涵盖的范围也更广。但值得注意的一点是:这些书籍只提供了概念上的机器学习以及方法背后的理论。

但是,本书重点介绍了机器学习算法的基本框架,旨在为读者提供独立构建这些算法的能力。作为一种「工具箱」而言,本书旨在成为用户指南,它不是用来指导用户关于该领域的广泛实践,而是在微观层面上讲述如何使用每种工具。

这本书需要读者掌握哪些知识?

需要注意的是,这本书的「概念」部分需要读者了解微积分知识,有些还需要了解概率(如最大似然和贝叶斯规则)和基本线性代数知识(如矩阵运算和点积)。

不过,该书附录部分回顾了所需的数学和概率知识。「概念」部分还参考了一些常见的机器学习方法,这些方法在附录中也有介绍。所以,「概念」部分不需要任何编程知识。

该书的「构建」和「代码」部分使用了一些基础的 Python 知识。「构建」部分需要了解相应的内容,并且需要熟悉用 Python 创建函数和类。「代码」部分则不需要这些知识。

网友评价

对于这本免费书籍,网友也给出了评论:「非常感谢把这些内容规整到一起。」


也有其他网友表示了感谢分享:「感谢分享,这看起来像是一个真正的项目。我会仔细阅览的!」


参考链接:https://www.linkedin.com/in/daniel-friedman-36b1b2139/


理论机器学习
相关数据
逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

朴素贝叶斯技术

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

推荐文章
暂无评论
暂无评论~