蒋宝尚、茶西编译

如果数据分布是非正态的怎么办?用切比雪夫不等式呀!

上图是万圣节的一周,在捣蛋和给糖之间,数据极客们在社交媒体上为这个可爱的网红词汇而窃窃私语。

正态分布/超自然分布

你觉得这是个玩笑?让我告诉你,这不是笑料。这是吓人的,真正的万圣节精神!

如果我们无法假设我们的大部分数据(商业、社会、经济或科学根源) 至少近似“正态”(即它们是由一个高斯过程或多个这样的过程的总和产生的),那么我们就完蛋了!

简单来说吧,以下非常重要的概念将无效~

  • 六西格玛的概念

  • 著名的68-95-99.7规则

  • 统计分析中p=0.05(来自2西格玛区间)的“神圣”概念

够吓人了么?那我们再多说两句…

无所不在的正态分布

正态分布(高斯分布)是最广为人知的概率分布。在数据科学的圈里,数据科学家非常喜欢这个分布

一方面是因为,符合这个分布的现象在自然界随处可见。在概率统计方面,中心极限定理撑起了一片天,而中心极限定理的最重要的一个假设是数据的分布符合中心极限定理

最重要的一点是:简洁。

因为无论是正态分布的性质还是表达式都非常的简洁:

  • 它的均值(mean)、中值(median)和众数(mode)都相同

  • 只需要用两个参数就可以确定整个分布

所以问题在哪呢?

这看起来都挺棒的啊,有什么问题吗?

问题是通常是,你可能会找到特定的数据集分布,这些分布可能不满足正态性,即正态分布的性质。但由于过度依赖于常态假设,大多数业务分析框架都是为处理正态分布数据集而量身定做的。

假设你被要求检测来自某个流程(工程或业务)的一批新数据是否有意义。所谓“有意义”是指新的数据是否属于它的“预期范围”,或者在它的“预期范围”之内。

 “期望”是什么?如何确定范围?

我们自动如潜意识驱使般,测量样本数据集的均值和标准差,并继续检查新数据是否在一定的标准偏差范围内。

如果我们必须在95%的置信区间下工作,那么我们很高兴看到数据在2个标准差内。如果我们需要更严格的界限,我们检查3或4个标准差。我们计算Cpk,或者我们遵循六西格玛线的ppm(每百万零件数)的质量水平.

所有这些计算都是基于一个隐含的假设,即人口数据(而不是样本)服从高斯分布,即生成所有数据的基本过程(过去和现在)受下面左侧图的支配。但是,如果数据在遵循右侧图形会发生什么呢?

左,正态:右,非正态

或者数据分布符合下边两个图形。

当数据非正态时,是否有更普遍的界限呢?

最终,即使数据是非正态的,我们仍然需要一种数学上完整的方法来限定我们的置信区间。这意味着,我们的计算可能会有一点变化,但我们还是应该能说出这样的话:

“与平均值一定距离处观察一个新的数据点的概率就是这样和这样的…”

显然,我们需要寻求一个比珍贵的68-95-99.7的高斯界限更普遍的界限(对应于与平均值的1/2/3标准差距离)。

 幸运的是,还真有一个这样的公式,叫做“切比雪夫不等式”。

什么是切比雪夫界限,它是如何有用的?

切比雪夫不等式(也称为Bienaymé-Chebyshev不等式)可以确保,对于一类广泛的概率分布,不超过某特定分段的值会比均值的特定距离大。

大学生必修课《概率论与数理统计》里是这么说的:

切比雪夫不等式可以使人们在随机变量X的分布未知的情况下,对事件|x-u|<ε概率作出估计。

表达式是这样的:

其中,u为数学期望,σ为标准差,ε为任意正数

它适用于几乎无限种类型的概率分布,并在比正态更宽松的假设下工作。

如何应用

正如你现在可以猜到的,数据分析的基本机制不需要改变。你仍将收集数据样本,并且越大越好,计算 以前也会算的均值和标准差这两个量,然后应用新的界限,而不是68-95-99.7规则。

提取样本数据/计算:均值,标准差/应用切比雪夫界限

该表如下所示(这里k表示许多偏离平均值的标准差):

K均值标准差内的最小百分比/超出k均值标准差的百分比

痛点在哪呢?为什么人们不使用这种假设更弱的约束呢?

通过看表格或数学定义痛点很明显。切比雪夫规则在数据界的问题上比高斯规则弱得多。

首先,与正态分布的指数下降模式相比,它遵循1/k² 的图形。再例如,要以95%的置信度设定界限,需要包含最多4.5标准偏差的数据,而对于正态分布只需要2个标准差。

总体来说,在数据不是正态分布的时候还是挺有效的。

那么,我们还有别的选择么?

当然,还有切诺夫界以及Hoeffding不等式,它给出了独立随机变量和的指数锐尾分布。

当数据看起来非正态分布时也可以用来代替高斯分布,但只适用于有高置信度,且数据相互独立的情况。

不幸的是,在许多社会和商业案例中,数据有非常强的相关性。

敲黑板,总结一下

在本文中,我们学习了一种特殊类型的统计界限,它可以应用于最广泛的数据分布,而不依赖于正态假设。当我们对数据的真正来源知之甚少,并且不能假定它遵循高斯分布时,这是有用的。因此,它是分析随意类型数据分布的重要工具。

相关报道:https://towardsdatascience.com/what-if-your-data-is-not-normal-d7293f7b8f0

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

理论切比雪夫不等式数据科学
1
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

切比雪夫不等式技术

在概率论中,切比雪夫不等式显示了随机变量的“几乎所有”值都会“接近”平均。切比雪夫不等式,对任何分布形状的数据都适用。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

高斯过程技术

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

中心极限定理技术

中心极限定理是概率论中的一组定理。中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。

推荐文章
暂无评论
暂无评论~