Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部机器之心报道

经典教材《统计学习导论》第二版来了,新增深度学习等内容,免费下载

经典的《统计学习导论》又出第二版了,相比于第一版,新版增加了深度学习、生存分析、多重测试等内容,可免费下载。

斯坦福经典教材《The Element of Statistical Learning》(简称 ESL)被称为频率学派的统计学习「圣经」,由 Trevor Hastie、Robert Tibshirani、Jerome Friedman 这三位大师共同完成。这本书介绍了神经网络支持向量机、分类树和 boosting、图模型、随机森林等各类机器学习算法,可以帮助读者了解机器学习算法全貌。

但是由于这本书涉及大量的公式、矩阵推导等许多比较难以理解的内容,比较适合在数学科学方面受过高级训练的个人,而对于初学者而言,学习起来比较困难,因此,Trevor Hastie 等人又写了一本入门级的《Introduction to Statistical Learning with R(统计学习导论:基于 R 应用)》(ISL),帮助更多的人尽快上手。

ISL 弱化了数学推导的细节,更注重方法的应用,相当于 ESL 的导读版,在入门读者中很受欢迎。每个章节都包含一个实验,用 R 语言实现。这些实验为读者提供了宝贵的实践经验。

目前,该书已被翻译成多国语言,包括中文、意大利文、日文、韩文、俄文和越南文等。

现在,ISL 又更新到了第二版(ISLRv2),相比于第一版,第二版增加了深度学习(第 10 章)、生存分析(第 11 章)、多重测试(第 13 章)。ISLRv2 还大幅扩展了第一版的一些章节:朴素贝叶斯和广义线性模型的处理(第 4 章),贝叶斯加性回归树(第 8 章),矩阵补全(第 12 章)。

此外,ISLRv2 已经更新了整个 R 代码实验。

书籍地址:https://www.statlearning.com/

网友极力推荐:非常好,这是一本很棒的入门书籍。

书籍介绍

全书多达 597 页,共 13 个章节,主要包括:

  • 统计学习;

  • 线性回归

  • 分类;

  • 重采样方法;

  • 线性模型选择正则化

  • 非线性模型;

  • 基于树的方法;

  • 支持向量机

  • 深度学习

  • 生存分析和删失数据;

  • 无监督学习;

  • 多重测试。


具体而言,本书第 2 章介绍了统计学习背后的基本术语和概念,此外还介绍了 k - 最近邻分类器,这是一种非常简单的方法,在处理许多问题上都非常有效。

第 3 章和第 4 章介绍了用于回归和分类的经典线性方法。具体地,第 3 章回顾了线性回归,这是所有回归方法的基本出发点;第 4 章讨论了两个最重要的经典分类方法,逻辑回归和线性判别分析。

所有统计学习情况中的一个核心问题是为给定的应用程序选择最佳方法。因此,第 5 章介绍了交叉验证和 bootstrap,它们可用于估计多种不同方法的准确性以选择最佳方法。

第 6 章考虑了许多线性方法,包括经典的和更现代的线性方法,它们提供了对标准线性回归的潜在改进,包括岭回归、主成分回归和 Lasso 等。


剩余章节主要是非线性统计学习。第 7 章首先介绍了一些非线性方法,这些方法可以很好地解决只有一个输入变量的问题,然后展示了如何使用这些方法来拟合有多个输入的非线性加性模型。

第 8 章研究了基于树的方法,包括 bagging、boosting 和随机森林。

第 9 章介绍了支持向量机等内容。

第 10 章介绍了深度学习,这是一种非线性回归和分类的方法,近年来受到了广泛的关注。

第 11 章探讨了生存分析,这是一种回归方法,专门用于输出变量被删失的情况,即不完全观察。

第 12 章介绍了无监督设置,其中在无监督设置中有输入变量,但没有输出变量。特别地,作者提出了主成分分析、k - 均值聚类和层次聚类。最后,第 13 章讨论了多重假设检验这个非常重要的话题。

作者介绍

书籍作者从左到右分别是:Gareth James、Daniela Witten、Trevor Hastie 和 Rob Tibshirani。

Gareth James 是南加州大学马歇尔商学院副院长,主要研究领域包括函数型数据分析、高维回归、市场营销中的统计问题。

Daniela Witten 是一位美国生物统计学家,主要研究领域是研究如何使用机器学习来理解高维数据。

Trevor Hastie 是斯坦福大学教授,还曾经是 AT&T 贝尔实验室的一名技术人员。2018 年,Hastie 当选为美国国家科学院院士。他的主要研究领域是应用统计学。

Rob Tibshirani 是斯坦福大学统计与生物医学数据科学系的教授,他曾开发了用于分析复杂数据集的统计工具。

书籍目录:

入门第二版统计学习导论
1
相关数据
重采样技术

重采样是指根据一类象元的信息内插出另一类象元信息的过程。在遥感中,重采样是从高分辨率遥感影像中提取出低分辨率影像的过程。常用的重采样方法有最邻近内插法(nearest neighbor interpolation)、双线性内插法(bilinear interpolation)和三次卷积法内插(cubic convolution interpolation)。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

回归树技术

回归树可以被视为决策树的变体,旨在逼近实值函数,而不是用于分类方法。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

朴素贝叶斯技术

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型,最简单的模型最有可能是最佳选择(奥卡姆剃刀)。

推荐文章
暂无评论
暂无评论~