累积分布函数

累积分布函数,又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。一般以大写“CDF”(Cumulative Distribution Function)标记。

来源:维基百科
简介

累积分布函数是概率密度函数的积分,即能完整描述一个实随机变量X的概率分布。对于所有实数x ,累积分布函数定义如下:

F_{X}(x)=P(X<=x)

其代表了实数X的取值小于等于x的概率(请注意大小写,X代表随机变量而x代表X的取值)。

若要求得X处于半闭区间(ab)的概率,其中a < b,则可以根据分布函数进行计算:

P(a<X<=b)=F_{X}(b)-F_{X}(a)

在上面的定义中,小于或等于符号“≤”是一种惯例,而不是普遍使用的惯例(例如匈牙利文献使用“<”),但这个写法对于离散分布很重要。正确使用二项式和泊松分布表取决于这个约定。此外,有些重要的公式也依赖于小于或等于的定义。

一般使用小写字母f代表概率密度函数和概率质量函数,而用大写字母F表示累积分布函数。

连续随机变量X的累积分布函数可以表示为其概率密度函数ƒ_{X}的积分,如下式:

F_{X}(x)=\int_{-\intf}^x f_{X}(t)dt

累计分布函数有几个重要的性质:

·有界性

o$$\varlimsup_{x\rightarrow - \infty}F_{X}(x)=0$$

o$$\varlimsup_{x\rightarrow + \infty}F_{X}(x)=1$$

·单调性:

oF_{x}(x_1)<=F_{x}(x_2) x_1<x_2

·右连续性:

·$$\varlimsup_{x\rightarrow +x_{0}^+}F_{X}(x_{0})

下图给出具有不同均值和方差的正态分布的累积分布函数,可以看到虽然其形状各异,但都具备上述三个性质:

[图片来源:https://upload.wikimedia.org/wikipedia/commons/c/ca/Normal_Distribution_CDF.svg]

累积分布函数的概念主要用于统计分析中,其有两种应用,一种是对小于参考值的现象值的出现频率的分析的累积频率分析,另一种则是对累计分布函数进行估计,随后可以求得简单的统计值,或进行各种统计假设检验。如检验样本数据是否来自给定的分布,或两个样本是否来自同一个概率分布。如著名的Kolmogorov-Smirnov检验即是基于累积分布函数,可用于检验两个经验分布是否不同,或者经验分布是否与理想分布不同。

[描述来源:维基百科URLhttps://en.wikipedia.org/wiki/Cumulative_distribution_function]

发展历史

描述

如上文所述,在统计分析中可以利用累积分布的概念对数据进行检验,KolmogorovSmirnov提出的Kolmogorov-Smirnov检验(K-S检验)是其中最著名的应用之一,用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。双样本K-S检验目前仍是比较两个样本最有用和最常用的非参数方法之一,因为它对两个样本的经验累积分布函数的位置和形状的差异很敏感。除此之外,基于累积分布的统计检验还有Shapiro-Wilk检验,Anderson-Darling检验等,Razali等人在2011年对这些检验的效力进行了比较。

1951Massey Jr在发表的论文对Kolmogorov-Smirnov检验进行了修改,从而将其用于模型的拟合优度(goodness-of-fit)分析。该检验基于实证累积分布(empirical cumulative distribution)和假设累计分布(hypothetical cumulative distribution)之间的最大差异,文章中给出了具体的例子,并认为结果显示修改后的Kolmogorov-Smirnov检验的表现比卡方检验(chi-square test)更好。

为将高阶变量的分布也纳入分析范围,J. P. Imhof1961年发表了论文,对已有的方法进行了探讨,并提出如何估计随机变量的二阶甚至更高阶形式的分布的新方法。

累积分布的应用远不止于此,在图像处理领域,基于图像直方图均衡方法的图像增强实际上也依赖于累积分布的概念,Yu Wang等人在其1999年发表的论文对此进行了说明。

主要事件

A

B

C

1

年份

事件

相关论文/Reference

2

1933-1948

KolmogorovSmirnov提出了Kolmogorov-Smirnov检验

Kolmogorov A (1933). Sulla determinazione empirica di una legge di distribuzione. G. Ist. Ital. Attuari. 4: 83–91. // Smirnov N (1948). Table for estimating the goodness of fit of empirical distributions. Annals of Mathematical Statistics. *19*: 279–281.

3

1951

Massey Jr在发表的论文对Kolmogorov-Smirnov检验进行了修改,从而将其用于模型的拟合优度(goodness-of-fit)分析

Frank J. M. Jr. (1951). The Kolmogorov-Smirnov Test for Goodness of Fit, Journal of the American Statistical Association, 46(253): 68-78.

4

1961

J. P. Imhof提出如何估计随机变量的二阶甚至更高阶形式的分布的新方法

Imhof. J. P.(1961). Computing the Distribution of Quadratic Forms in Normal Variables. Biometrika. 48(3/4): 419-426.

5

1999

Yu Wang等人提出了基于图像直方图均衡方法的图像增强法,这种方法实际上也是基于累积分布的

Wang, Y.; Chen, Q.; Zhang, B. (1999). Image enhancement based on equal area dualistic sub-image histogram equalization method. IEEE Transactions on Consumer Electronics. 45(1):68 - 75.

6

2011

Razali等人对基于累积分布的Shapiro-Wilk检验,Anderson-Darling检验等进行了比较

Razali, N. M.; Wah Y. B.(2011). Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests. Journal of Statistical Modeling and Analytics. 2(1): 21-33.

发展分析

瓶颈

累积分布函数是数学上的一个基本概念,并且经过超过一百年的发展,已经十分成熟,很难说存在什么瓶颈。

未来发展方向

如上文所述,目前有关的研究大部分是基于累积分布函数这个概念的,而不是直接对累积分布函数进行研究。

ByYuanyuan Li

相关人物
尼古拉·斯米尔诺夫
尼古拉·斯米尔诺夫
Nikolai Smirnov(尼古拉·瓦西里耶维奇·斯米尔诺夫,俄语:НиколайВасильевичСмирнов)(1900年10月4日 - 1966年6月2日)是苏联俄国数学家,因其在各种领域的工作而闻名,包括概率论和统计学。 斯米尔诺夫在数理统计和概率论中的主要工作是通过多重积分的无症状行为来研究极限分布,其中多重性随着极限而增加。 他是数理统计中非参数方法和秩序统计极限分布理论的创造者之一。
西奥多·威尔伯·安德森
西奥多·威尔伯·安德森
美国数学家和统计学家,专攻多元变量统计数据分析。1918年出生在明尼阿波利斯;1946年担任哥伦比亚大学教授直至1967年搬去斯坦福大学。1988年成为荣誉教授。1950年到1952年担任学术期刊Annals of Mathematical Statistics的编辑。1962年被选为国际数理统计学会会长。
安德雷·尼古拉耶维奇·柯尔莫哥洛夫
安德雷·尼古拉耶维奇·柯尔莫哥洛夫
俄国数学家,主要研究概率论、算法信息论、拓扑学、直觉主义逻辑、紊流、经典力学和计算复杂性理论,最为人所道的是对概率论公理化所作出的贡献。他曾说:"概率论作为数学学科,可以而且应该从公理开始建设,和几何、代数的路一样"。
唐纳德·阿伦·达令
唐纳德·阿伦·达令
美国统计学家,以Anderson–Darling检验闻名。Darling1915年出生在洛杉矶。1934年,达林在洛杉矶加州大学开始了他的本科学习,并于1939年获得了数学学士学位。1940年,他成为泛美航空公司的气象学家。1942年至1946年,在第二次世界大战期间,他领导了空军天气研究项目的统计部门。
简介
相关人物