回归分析 | 机器之心

简介

回归分析是建立因变量与自变量（或称解释变量、预测变量）之间关系的模型，这是一种统计学上分析数据的方法，目的在于了解两个或多个变数间是否相关、相关方向与强度，并建立数学模型以便观察特定变数来预测研究者感兴趣的变数。一元线性回归使用一个自变量，而多元线性回归复回归使用超过一个自变量。回归分析有助于理解当任何一个独立变量变化时，因变量（或“标准变量”）的典型值如何变化，而其他自变量保持固定。

在一个回归模型中，用β代表未知参数——可以是一个标量或一个向量——X代表自变量，Y代表因变量，回归分析的目标是找出一个函数使得下式能够成立：

$Y \approx f(X,β)$

举例来说，假设我们有广告数据并用它作为自变量对电视销售额进行了回归。下图显示了根据最小二乘法算法得到的结果。蓝色直线是通过最小化平方误差的总和所得到的拟合，每条灰色线段代表每个数据的拟合误差，而拟合的结果则是对它们的平方进行平均。拟合的结果可能在局部并不是很理想，但整体来看，它准确表达了数据的大部分趋势。

[描述及图片来源：James, G.; Witten, D.; Hastie, T.; Tibshirani, R. (2013).An Introduction to Statistical Learning: with Applications in R. Springer.]

回归分析可以分为线性回归（linear regression）和非线性回归（nonlinear regression）。其中线性回归包括一元线性回归、多元线性回归。线性回归中比较特殊的回归分析有对数线性回归（Log-linear model）——是将自变量和因变量都取对数值之后再进行线性回归。非线性回归则包括逻辑回归（Logistic Regression）、偏回归（Partial Regression）等。

此外，回归分析成立并有效的前提在于其一系列假设，因此在使用具体的模型时检验数据是否符合模型假设十分重要。经典的回归分析假设包括：

该样本代表推断预测的总体。
模型误差是一个随机变量，其关于解释变量的条件分布的平均值为零。
独立变量的测量没有错误，但如果此条假设不成立，可以使用其他技术来完成建模。
独立变量（预测变量）之间是线性独立的，即不可能将任何预测变量表示为其他变量的线性组合。
误差是不相关的，即误差的方差-协方差矩阵是对角矩阵，而每个非零元素是误差的方差。
误差的方差在观测中是恒定的（同方差性）。否则，可能需要使用加权最小二乘法或其他方法。

以上这些假设保证了参数估计在线性无偏估计量类中将是无偏，一致和有效的。但值得注意的是，实际数据很少能满足这些假设。因此即使假设不正确，也常常使用该方法。而许多统计方法也为了提供更宽松的假设而被提出来。

[描述来源：维基百科URL：https://en.wikipedia.org/wiki/Regression_analysis]

描述

最早的回归形式是最小二乘法，这也是目前回归分析中最基础最常用的算法，该算法是由勒让德在1805年发表的和由高斯在1809年发表的。勒让德和高斯都将该方法应用于从天文观测中确定关于太阳的物体的轨道（主要是彗星，但后来是新发现的小行星）的问题。高斯在1821年将最小二乘理论进一步扩展，包括一个高斯-马尔可夫定理的版本。“回归”这一词则是由戈尔顿在十九世纪创造的，用以描述一种生物现象。他曾对亲子间的身高做研究，发现父母的身高虽然会遗传给子女，但子女的身高却有逐渐“回归到中等（即人的平均值）”的现象，这种现象也被称为回归平均值。当时回归只具有这种生物学意义，但是他的工作后来被Udny Yule和Karl Pearson扩展到一个更一般的统计学背景。Udny Yule和Karl Pearson当时将自变量和因变量的联合分布假定为高斯分布，费雪将这个假设放宽到了因变量的条件分布需为高斯分布，但联合分布不需要。

线性回归已经存在了200多年，并得到了广泛研究，但仍然是一个积极的研究领域。近几十年来，已经开发出了用于稳健回归的新方法，包括对时间序列和生长曲线等数据的回归、预测变量（自变量）或因变量为曲线、图像、图形或其他复杂数据对象的回归方法、能适应各种类型的缺失数据的回归方法、非参数回归、贝叶斯回归等等。

主要事件

	A	B	C
1	年份	事件	相关论文/Reference
2	1805-1809	勒让德和高斯提出了最小二乘法	Legendre A. M.(1805).Nouvelles méthodes pour la détermination des orbites des comètes, Firmin Didot.//Gauss. C. F. (1809). Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum.
3	1821	高斯将最小二乘理论进一步扩展	Gauss, C. F. (1821). Theoria combinationis observationum erroribus minimis obnoxiae.
4	1885	戈尔顿提出了“回归”一词	Galton, F.(1989). Kinship and Correlation (reprinted 1989). Statistical Science (Institute of Mathematical Statistics). 4 (2): 80–86.
5	1897	Udny Yule将回归方法扩展到了经济数据上	Yule, G. U. (1897). "On the Theory of Correlation". Journal of the Royal Statistical Society. Blackwell Publishing. 60 (4): 812–54.
6	1922	费雪将自变量与因变量的联合分布需为高斯分布的假设放宽到了因变量的条件分布需为高斯分布	Fisher, R.A. (1922). The goodness of fit of regression formulae, and the distribution of regression coefficients. Journal of the Royal Statistical Society. 85(4): 597–612.

发展分析

瓶颈

回归分析像许多传统统计学习模型一样，遭受着维数灾难（curse of dimensionality），因此要在高维数据上使用回归分析，必须先进行降维处理。

未来发展方向

回归分析是一个已经十分成熟的研究领域，由于其良好的可解释性，目前其在商业数据上的用途十分广泛。当然，在生物数据、工业数据等也不乏关于回归分析的应用。

Contributor: Yuanyuan Li

简介