卡方 | 机器之心

简介

卡方常常与卡方分布和卡方检验联系在一起，卡方分布（chi-square distribution）是常用于概率论和统计检验中的一种概率分布，它的定义如下：

假设k个随机变量相互独立，且服从标准正态分布（期望为0，方差为1），则其平方和服从自由度为k的卡方分布：

写作：

它的平均值是k，平方差是2k，概率密度函数如图所示：

卡方检验是（chi-square test）是一种基于卡方分布的常用的统计（显著性）检验，其统计量在原假设（null hypothesis）成立时服从卡方分布。在不明确说明的情况下，卡方检验默认指代皮尔森卡方检验（Pearson's chi-squared test），根据样本数据推断总体分布与期望分布是否有显著差异，或推断分类变量间是否相互关联或彼此独立。不同的卡方检验使用不同的计算公式计算统计量，在这里不详细说明，但如上文所说，卡方检验都假设其使用的统计量服从卡方分布。

以最著名的皮尔森卡方检验为例，假设我们认为惯用手与性别无关，即原假设为惯用手与性别相互独立，并且我们得到的数据可以总结在一个列联表（contingency table）中：

	男（期望）	女（期望）	总计
右	43（45.24）	44（41.76）	87
左	6（6.76）	4（6.24）	13
总计	52	48	100

其中的期望为在原假设下每种情况的期望次数，计算公式为：

其中N为样本大小。

统计值的计算公式为：

根据上式可以计算本例中统计值为：

Chi-square=(43-45.24)^2/45.24+(44-41.76)^2/41.76+(9-6.76)^2/6.76+(4-6.24)^2/6.24=1.777

1.777

而自由度为（r-1）（c-1）=（2-1）（2-1）=1.

查表可得在统计量为1.777，自由度为1的情况下p-值0.1825，大于0.05，无法拒绝原假设，即无法拒绝惯用手与性别独立的假设。

另外值得一提的一点是不仅有卡方检验使用卡方分布，许多著名的统计检验也假设其统计量在原假设成立的情况下服从卡方分布。

[描述来源：维基百科-卡方分布URL：https://zh.wikipedia.org/wiki/%E5%8D%A1%E6%96%B9%E5%88%86%E4%BD%88]

[描述来源：维基百科-卡方检验URL：https://zh.wikipedia.org/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C]

发展历史

现代统计学的奠基人之一，费雪（Ronald Fisher），也是一名出色的生物学家。实际上，早期的统计手段几乎都围绕着生物数据检验展开，当时主流观点认为正态分布就能够很好的模拟这些数据的分布。皮尔森（Karl Pearson）于1990年发表论文指出这一观点实际上是错误的，并提出了更合适的有偏度的概率分布族，也提出了现代统计学最常用的检验——卡方检验。1922年费雪指出皮尔森在论文中定论卡方分布的自由度永远是k-1是错的，而应该是k-m-1，其中m为参数个数，从而形成了今天我们所见的卡方检验。

当时费雪和皮尔森各自为营，为自己所支持的观点争论不休，其中最著名的有费雪提出的p值理论和皮尔森提出的统计量检验方法（临界值）。Neyman在发表的论文中将置信区间（confidence interval）引入了统计假设检验，并和卡尔森的儿子 E. Pearson合作发明了 Neyman-Pearson lemma，是假设检验的重要基础。至此，今天我们所用的统计检验方法基本形成。现在的卡方检验也结合了以上提到的检验方法，已经成为了统计学最常用的手段之一，进行卡方检验的一般步骤为：

建立原假设（Null Hypothesis），即认为观测值与理论值的差异是由于随机误差所致；
确定所得样本求出卡方值；
如卡方值大于给定置信水平的理论值（一般取0.95）或求得的p值小于给定的阈值（一般为0.05），则拒绝原假说，即实测值与理论值的差异在置信水平下是显著的。

一些常用的卡方检验有卡方独立性检验（Chi-squared test of independence），卡方同质性检验（chi-squared test of homogeneity）和卡方拟合度检验（chi-squared test of goodness-of-fit）等。

主要事件

年份	事件	相关论文
1990	皮尔森（Karl Pearson）在论文中定义了卡方分布和卡方检验的概念	Pearson K. (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that can be reasonably supposed to have arisen from random sampling.
1922	费雪（Ronald Fisher）更正卡方分布关于自由度的定义	Fisher R. A. (1922). On the Interpretation of chi-squared from Contingency Tables, and the Calculation of P. Journal of the Royal Statistical Society.
1933	Neyman和E. Pearson提出了Neyman-Peason lemma	Neyman J.; Pearson E. S. (1933). On the Problem of the Most Efficient Tests of Statistical Hypotheses.Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences.

发展分析

瓶颈

卡方检验一个众所周知的局限性就是其对样本量敏感，样本量过小卡方检验的卡方分布假设不成立，样本量越大越容易拒绝原假设。

另一个方面就是卡方检验常指代的皮尔森卡方检验只适用于定类变量，并且列联表中频数小于5的个数不能太多，否则统计量也无法近似卡方分配。

未来发展方向

目前关于卡方分布和卡方检验的研究已经非常成熟，一个可能的发展方向也许是将卡方检验的应用范围扩展到更广的领域。

Contributor: Yuanyuan Li

简介