线性回归

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

简介

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

在以上诸例中,Y通常称为因变量或响应变量,X称为自变量或预报变量。我们可以设想,Y的值由两部分组成:一部分是由X能够决定的部分,它是X的函数,记为f(X).而另一部分则由其它众多未加考虑的因素(包括随机因素)所产生的影响,它被看作随机误差,记为e,于是我们得到如下模型:

Y= f(X)+e (1.1.1)

这里e作为随机误差,我们有理由要求它的均值E(e)=0,其中E(·)表示随机变量的均值。

特别,当f(X)是线性函数${\rm{f(x) = }}{\beta _0} + {\beta _1}X$ 时,我们得到

$f(x) = {\beta _0} + {\beta _1}x + e$ (1.1.2)

在这个模型中,若忽略掉e,它就是一个通常的直线方程。因此,我们称(1.1.2)为线性回归模型或线性回归方程。

来源:

王松桂等编 线性统计模型 线性回归与方差分析 高等教育出版社

例子:

从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。

编号

1

2

3

4

5

6

7

8

身高/cm

165

165

157

170

175

165

155

170

体重/kg

48

57

50

54

64

61

43

59

求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。

解:1.选取身高为自变量X,体重为因变量Y,作散点图:

2.由散点图知道身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。

3.回归方程:Y=0.849X-85.172

4.所以,身高172cm的女大学生体重Y=0.849 x 172 – 85.172 = 60.856(KG)

发展历史

描述

“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822~1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象—回归效应。因为当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。

线性回归的最早期形式是最小二乘法,该方法在1805年由Legendre提出。Legendre和Gauss都将此方法应用到天文观测当中,在1821年,Gauss进一步阐述了最小二乘法理论,包括直到目前都耳熟能详的Gauss-Markov定理,该定理是线性模型领域的基础定理。

回归的现代意义:它要比其原始意义广泛的多。具体地说,回归分析的内容包括:• 确定响应变量与预报变量间的回归模型,即变量间相关关系的数学表达式(通常称为经验公式);• 根据样本估计并检验回归模型及未知参数;• 从众多的预报变量中,判断哪些变量对响应变量的影响是显著的,哪些是不显著的;• 根据预报变量的已知值或给定值来估计或预测响应变量的平均值并给出预测精度或根据响应变量的给定值来估计预报变量的值,即所谓的预报与控制问题。

主要事件

年份

事件

相关论文

1886年

高尔顿提出了“回归”的概念

Francis Galton.(1886) "Regression Towards Mediocrity in Hereditary Stature," Journal of the Anthropological Institute, 15:246-263

1887年

由作者重新组织翻译高斯有关最小二乘法的著作,使其方便查阅

Börsch, A., & Simon, P. (1887). Abhandlungen zur Methode der kleinsten Quadrate von Carl Friedrich Gauss. Berlin: P. Stankiewicz, 1-27.

1926年

作者用英语对高斯线性模型进行了高质量的总结提炼

WHITTAKER, E. T. & ROBINSON, G. (1924, 1926). The Calculus of Observations. London: Blackie.

1957年

作者用现代术语对高斯线性模型进行了完美阐述

WAERDEN, B. L. VAN DER (1957). Mathematische Statistik. Berlin: Springer.

发展分析

瓶颈

1)回归模型中包含的变量多,所需的数量大,但是在实际中,一些变量的数据往往是难以查找到的,在缺少数据的情况下要建立准确可靠的回归预测模型是十分困难的。另外,回归模型中的一些自变量为非滞后变量,因此,在使用回归模型进行预测之前,首先要对这些变量做出估计,如果估计得不准确,就会对整个预测模型产生不利的影响,使预测误差很大。

2)对于非线性数据强行使用线性回归模型会导致一个非常不准确的结果

3)线性回归虽然是一个简单稳定的算法,但是它要求数据服从一些条件。所以,在直接调用线性回归之前,我们有必要先对数据进行审视看看符不符合条件,如果不符合要采取一些相应手段对数据进行处理,最后再调用线性回归

Contributor: Jiang Peng

相关人物
弗朗西斯·高尔顿
弗朗西斯·高尔顿
英格兰维多利亚时代的博学家、人类学家、优生学家、热带探险家、地理学家、发明家、气象学家、统计学家、心理学家和遗传学家,查尔斯·达尔文的表弟。
卡尔·弗里德里希·高斯
卡尔·弗里德里希·高斯
简介
相关人物