丁亚楠校对李海明翻译

一文读懂统计学与机器学习的本质区别(附案例)

本文为你讲解了统计学与机器学习的本质区别。

两者之间并不一样。如果机器学习仅仅是统计学基础上的锦上添花,那么其结构只能像沙堡一样脆弱。


老实说,我已经厌倦了在社交媒体和我的大学里听到这种争论,而且两方通常都会用一些模糊的描述来解释这个问题。其实大家都对这样做感到内疚。希望在本文的最后,你可以对这些模糊的术语有一个更为全面的了解。

论点

与人们的普遍认识相反,机器学习实际上已经有数十年的历史了。受模型计算需求和早期算力限制的影响,这一领域之前并未兴起。然而,得力于近年来信息爆炸所带来的海量数据优势,机器学习正方兴未艾。

想想看,如果机器学习和统计学彼此相同的话,那么大学里的统计专业为什么没有关闭或是改名叫“机器学习”呢?因为他们确实不一样!

我们常常听到与这一问题有关的一些模糊陈述:

机器学习与统计学之间的区别在于其目的不同。机器学习旨在进行精确预测。而统计学模型则用于推断变量之间的关系。”

从技术角度看,这一陈述是正确的,然而却并非令人满意且明确的答案。可以肯定的是,目的确实是机器学习与统计学之间的主要区别,但关于机器学习的精确预测与统计学的关系推断这一论断则没有什么意义,除非你精通这些概念。

首先,我们需要区分统计学与统计模型。统计学是关于数据的数学研究。没有数据,统计学则无用武之地。统计模型则是一种数据模型,可用于推断数据中的关系或创建具有预测功能的模型。通常情况下,两者相辅相成。

所以,我们需要讨论两个问题:首先,统计学与机器学习之间的区别;其次,统计建模与机器学习之间区别。更明确地说,可用统计模型进行预测,然而预测精度并非它的专长。

同样,机器学习模型提供了不同程度的可解释性,从具有高度可解释性的lasso回归到我们一无所知的神经网络,通常它们会牺牲可解释性以获得预测能力。

从某种意义上讲,对大多数人来说这已经是一个很好的答案了。然而,在某些情况下,这种解释会令人们对机器学习和统计学之间的区别存在误解。先来看一个线性回归的例子。

统计模型 vs 机器学习 ——线性回归

在我看来,统计建模与机器学习所用方法非常相似,因此人们认为两者是一致的。这一观点可以理解,但并不正确。

最明显的同样也是最易造成误解的例子就是线性回归了。线性回归是一种统计学方法,我们可以训练一个基于平方误差最小的线性回归器,并输出与统计线性回归模型相同的结果。

可以看到,一方面我们对模型进行“训练”,这需要一个数据子集。另外,直到我们用非训练数据对模型测试前,我们并不知道这个模型的性能。在这种情况下,机器学习的目的在于获得基于测试数据集的模型最佳性能。

对于统计模型,我们假设数据是一个基于高斯分布且有随机噪声的线性回归函数,并且要在其中找到一条均方误差最小的线,但不需要训练和测试数据集。在许多情况下特别是研究中(比如下面将提到的传感器研究),统计模型的重点在于刻画数据与结果变量之间的关系,而不是对未来的数据进行预测。该过程被称为统计推断过程,而非预测过程。不过,我们仍然可以使用这一模型来进行预测,而且这可能是你的主要目的。对该模型的评估并不涉及测试数据集,而是对模型参数进行重要性和鲁棒性评估。

有监督的机器学习的目的是构建一个可重复预测的模型。实际上我们只关心这个模型能不能用,而不是去解释它的机制。因此我个人建议必须对模型进行测试,从而确定预测结果的可行性。机器学习是以结果为导向的,更像是只以成败论英雄。统计模型虽然也适合预测,但更关注于发现变量间的关系以及这一关系的重要性。

举例来说,作为一名环境科学家,我主要研究传感器数据。我试图证明某个传感器能够对某种特定的刺激进行响应(比如气体浓度),然后我会使用统计模型来确定信号的响应是否具有统计显著性。我会试图去弄清楚刺激和响应之间的关系并对其可重复性进行验证,也因此我可以准确地表征传感器响应并根据响应数据做出推断。比如我所测试的响应是否是线性的,是否是由气体浓度而非随机噪声导致的响应,等等。

另一方面,我可以用一个有20个不同传感器的阵列来预测新传感器的响应情况。对于不太了解传感器的人可能听上去有点奇怪,不过这目前属于环境科学的一个关键领域。使用20个不同的变量和一个模型则可以预测新传感器的输出情况,而且我不需要进行特别的解释性工作。由于化学动力学和物理变量与气体浓度之间的非线性关系,这一模型更像是一张神经网。我特别希望这一模型能够具有实际意义,而且我会非常乐意其具有精准预测的功能。

如果我试图证明数据变量间的关系具有统计学意义,我会使用统计模型。这是因为我更关注变量间关系,而非预测。虽然预测很重要,但由于机器学习算法缺少解释性,因此很难证明数据间的关系(实际上这也正是当前学术界的一个关键问题,即使用一个人们并不真正理解的算法,而且得到一个似是而非的推论。)

可以清楚地看到,两种方法殊途同归。机器学习算法的评价准确性可通过测试数据集来验证。对于统计模型来说,基于置信区间的回归参数分析,重要性测试以及其他测试可以用于评价该模型的有效性。由于使用这些方法所得到的结果是一致的,因此他们认为他们完全相同也是可以理解的。

统计学 VS 机器学习——线性回归案例

个人认为这一误解可以很好地包含在这看似诙谐的比较统计数据和机器学习的10年挑战当中。

然而,仅仅因为运用了同样的概率理论就把它们合二为一是没有道理的。比如,如果我们认为机器学习是基于优化的统计,那么我们也可以这样说:

  • 物理只是优美化了的数学

  • 动物学只是美化了的集邮

  • 建筑学只是美化了的沙堡结构

以上这些陈述(尤其是最后一个)都很荒谬,而且都来自于将有相似概念的术语合并这一概念(建筑学举例中使用了双关语)。实际上,物理建立在数学基础之上,是数学的一种应用,从而理解现实中存在的物理现象。物理也包括了统计学的各个方面,且现代统计学形式的框架结构主要来自含有以Zermelo-Frankel集合理论和测度理论组合而成的概率空间。由于来自同一起源和同一思想,它们有很多共同之处,并且从逻辑角度看还可以得到相同的结论。同样,建筑学和沙堡结构很可能也是如此——由于我不是建筑学家,所以无法给出有见地的解释——但显然他们是不同的。

为了了解这一争论的影响范围,《Nature Methods》杂志上发表了一篇论文,概述了统计学和机器学习的不同。这个想法看起来可笑,但是却证明了在这一层次探讨的必要性。

Points of Significance: Statistics versus machine learning

Statistics draws population inferences from a sample, and machine learning finds generalizable predictive patterns. Two…

www.nature.com

在继续之前,我想快速澄清一下另外常见的机器学习与统计学之间的误解,即:AI并不等同于机器学习数据科学并不等同于统计学。这些都是没有什么争议的问题,所以只简要说明一下。

数据科学本质上是一种应用于数据的计算和统计方法,既可以是小数据集,也可以是大数据集。这还包括探索性数据分析,即检查并可视化数据,从而有助于科学家更好的理解数据并进行推断。数据科学还包括数据整理和数据预测,由于涉及编码、建立数据库和网络服务器之间的连接,因此数据科学在某种程度上还涉及计算机科学。

你并不需要用一台电脑就可以研究统计学,但是当你研究数据科学时则必须要有一台电脑。因此,显然数据科学与统计学并不相同。

同理,机器学习并不等同于人工智能。事实上,机器学习是AI的子集,当我们教授(“训练“)一台机器时,可以根据以前的数据对某些类型的数据进行概括性推断。

机器学习建立在统计学基础上

在讨论统计学和机器学习的区别之前,我们先来讨论一下相同之处。在前几节中也有涉及到这方面的内容。

显然,机器学习建立在统计学的框架之上。这是因为机器学习涉及数据,而数据则必须使用统计学框架进行描述。然而,被扩展为大量粒子热力学的统计力学同样也建立在统计学框架之上。压强的概念实际上也是一个统计量,温度也是如此。如果你觉得很可笑,没关系,但事实如此。这就是为什么你不能描述一个分子的温度或压力。温度实际上是分子间碰撞产生平均能量的表现。对于足够多的分子,比如房子或户外环境来说,描述其温度才具有实际意义。

你会承认热力学和统计学是一样的吗?不会的,实际上热力学是用统计学来帮助我们理解功和热相互作用产生的输运现象。

事实上,除统计学外,热力学的建立还以很多其他学科为基础。同理,机器学习(ML)的建立也要以数学和计算机科学等领域为基础,比如:

  • ML理论源于数学和统计学

  • ML算法源于优化、接矩阵代数、微积分

  • ML的实现要依靠计算机科学和工程概念(如内核技巧、特性哈希)

当我们用Python编程,引入sklearn库并开始使用算法时,很多概念都被抽象了,所以很难看到它们的区别。因此,这种抽象导致了对机器学习内涵的不了解。

统计学习理论——机器学习的统计学基础

统计学与机器学习的主要区别在于统计学完全基于概率空间。你可以从集合理论中得到完整的统计学内容。集合理论主要探讨如何对数组进行分类,也就是集合的概念。

在该集合上进行测量,并确保测量值的总和为1,我们称其为一个概率空间。

统计学只建立在集合和测度这两个基本假设之上。这就是为什么当我们用非常严格的数学定义指定了一个概率空间时,实际上我们指定了三件事:

  • 一个概率空间,可表示为(Ω, F, P),其由三部分组成

  • 样本空间Ω,所有可能的结果;

  • 事件集合F,每个事件都是一组包含零或更多结果的集合;

  • 事件的概率分配P,即从事件到概率的函数。

机器学习基于统计学习理论,而统计学习理论也建立在概率空间这一公理上。统计学习理论兴起于1960年,是对传统统计学的扩展。

机器学习也有集中分类,这里我只关注监督学习,因为它最容易解释清楚(尽管它隐藏在数学中,仍然有些深奥)

监督学习统计学习理论可知,现有一个数据集合,表示为S = {(xᵢ, yᵢ)}。可认为有n个数据点,每个数据点都可以用被称为特征的值进行描述。这些特征由x提供,且通过某映射函数可得到y值。

也就是说数据是已知的,我们的目标在于找到那个可以映射x和y值的函数。我们称所有可能的函数集合为假设空间。

为了找到这个函数,我们需要让算法通过“学习”去解决该问题,可由损失函数提供。所以,对于每个假设(建议函数),我们需要查看其对所有数据期望风险值来评估这一函数的性能。

期望风险本质上是损失函数的总和乘以数据的概率分布,如果我们知道映射函数的联合概率分布,则会非常轻松地找到最佳函数。然而,这个分布通常是不知道的。因此,最佳的方法是猜测最佳函数,然后根据经验判断损失函数的优劣。我们将其称之为经验风险。

接下来我们可以对比不同的函数,并寻找能带来最小期望风险的假设,即这一假设可以给出全部数据假设的最小值(下确界)。

然而,算法为了使损失函数最小,会有使数据过拟合的趋势。这就是为什么通过训练数据学习后,函数可通过测试数据得到验证,但测试数据并不包括训练数据的内容。

上述机器学习定义中我们引入了过拟合问题,并证明了在进行机器学习时需要使用训练集和测试集。而该方法并未遵循统计学固有的特征,因为我们没有试图令经验风险最小化。

选择经验风险最小化的学习算法可称为经验风险最小化过程。

举例

线性回归为例。传统意义上我们会尝试最小化数据误差,从而找到一个可用于描述数据的函数。在这种情况下,我们通常使用均方误差。我们对其进行平方,这样正负误差便不会相互抵消。接下来我们可以用封闭的方法求解回归系数。

正因为如此,如果我们取损失函数为均方误差,并按统计学习理论进行经验风险的最小化过程,最终得到的结果会与传统线性回归分析相同。

这是因为两种情况是等价的,同理,如果用同样的方法对相同的数据进行最大似然估计,那么结果也是一样的。最大似然估计是一种实现同一目标的不同方法,然而没有人会争辩并且认为其与线性回归是一样的。当然,进行最简单的案例应用显然无助于区分这些方法。

另外需要指出的关键是,传统的统计学方法中没有训练集和测试集的概念,但可以使用一系列指标来帮助我们检查模型的执行情况。所以,虽然评估的程序不同,但使用两种方法都可以得到统计上鲁棒的结果。

还有一点,考虑到经典统计学中的解空间是封闭的,则可求得最优解。它没有检验任何其他假设,并收敛于一个解。然而,机器学习方法则尝试了大量不同的模型并收敛至最终的假设,这与回归算法的结果是一致的。

如果我们使用不同的损失函数,结果可能是不收敛的。比如,当我们使用铰链损失函数(使用标准梯度下降法是不可微的,所以需要使用像近端梯度下降法这样的技术)时,结果很可能会不同。

最后,可以通过模型偏置进行对比。可令机器学习算法测试线性模型,多项式模型,指数模型等等,来看这些假设是否更适合已给定先验损失函数的数据。这类似于增加相关的假设空间。在经典统计学中,我们会选择一个模型并评估其精度,但不能令其自动选择100个不同模型中的最优模型进行计算。显然,受初始算法选择的影响,偏差一定存在。因此,找到数据集中求得最优解的任意函数本身是一个NP-hard问题。

哪种方法更好?

其实这是个很蠢的问题。从关系角度看,没有统计学,机器学习是不存在的。然而,在当前人类所经历的这个信息爆炸的时代中,面对海量数据的涌入,机器学习倒是颇为有用。

比较机器学习统计模型确实有些困难。这主要取决于你的目的是什么。如果你想构建一种可以精确预测房价的算法,或是使用数据确定某人是否可能感染某种疾病的话,机器学习可能是更好的选择。如果你想证明变量间的关系或用数据进行推断,那么统计模型则会成为更好的选择。

如果你没有较好的统计学基础的话,也不影响你研究或使用机器学习,这是因为机器学习库已经将专业内容进行了提炼,使用起来简单易懂。不过你还是需要多多少少知道一些统计学的基础知识,以防止模型的过拟合或得到某种似是而非的推论。

在哪里能够深入学习?

如果你有兴趣深入研究统计学习理论,这里有很多统计相关的大学课程和书籍,以下是我推荐的一些课程:

9.520/6.860, Fall 2018

The course covers foundations and recent advances of machine learning from the point of view of statistical learning…

www.mit.edu

如果你对更深入地研究概率空间感兴趣,那么我要给你一个忠告,它在数学上很重要,而且通常只在研究生统计学课程中涉及。这里有一些关于这个话题不错的资料:

http://users.jyu.fi/~miparvia/Opetus/Stokastiikka/introduction-probability.pdf

https://people.smp.uq.edu.au/DirkKroese/asitp.pdf

感谢阅读!

原文标题:
The Actual Difference Between Statistics and Machine Learning

原文链接:

https://towardsdatascience.com/the-actual-difference-between-statistics-and-machine-learning-64b49f07ea3

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

入门机器学习统计学
31
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

最大似然估计技术

极大似然估计是统计学中用来估计概率模型参数的一种方法

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

微积分技术

微积分(Calculus)是高等数学中研究函数的微分(Differentiation)、积分(Integration)以及有关概念和应用的数学分支。它是数学的一个基础学科。内容主要包括极限、微分学、积分学及其应用。微分学包括求导数的运算,是一套关于变化率的理论。它使得函数、速度、加速度和曲线的斜率等均可用一套通用的符号进行讨论。积分学,包括求积分的运算,为定义和计算面积、体积等提供一套通用的方法 。

统计学习理论技术

统计学习理论是统计学和功能分析领域的机器学习框架。统计学习理论处理基于数据建立预测函数的问题,且已经在算机视觉,语音识别,生物信息学等领域得到了成功应用。

推荐文章
赞:“机器学习是以结果为导向的,更像是只以成败论英雄。统计模型虽然也适合预测,但更关注于发现变量间的关系以及这一关系的重要性”