决定系数(英语:coefficient of determination,记为R2或r2)在统计学中用于度量因变量的变异中可由自变量解释部分所占的比例,以此来判断统计模型的解释力。
如某学生在某智力量表上所得的 IQ 分与其学业成绩的相关系数 r=0.66,则决定系数 R2=0.4356,即该生学业成绩约有 44%可由该智力量表所测的智力部分来说明或决定。[来源:顾明远.教育大辞典:上海教育出版社,1998年]
对于简单线性回归而言,决定系数为样本相关系数的平方。当加入其他回归自变量后,决定系数相应地变为多重相关系数的平方。
假设一数据集包括 y_1,...,y_n 共n个观察值,相对应的模型预测值分别为f_1,...,f_n。定义残差e_i = y_i − f_i,平均观察值为
于是可以得到总平方和
回归平方和
残差平方和
由此,决定系数可定义为
决定系数R^2示意图
Adjusted R^2
通常记为:R bar squared
adjusted R^2 是考虑当额外的变量被添加到模型中时,这时R^2会自动地增加的现象。这是一种对R^2的修正,由于Henri Theil的R^2调整了在模型中相对于数据点相关术语的数量。调整后的R^2可以是负的,它的值总是小于或等于R^2。与R^2不同的是,调整后的R^2只有在R^2增加(由于包含一个新的变量)的时候,才会有机会看到。
如果将一组具有重要的解释变量引入回归方程,每次都需要调整R^2,调整后的R^2达到最大,随后降低的水平将是HA的理想组合的回归。在没有多余/不必要的条件下进行最佳匹配。调整后的R^2定义为
其中p是模型中解释变量的总数(不包括常数项),n为样本大小。Adjusted R^2也可以写为:
dft是对因变量的总体方差的估计n - 1的自由度,而dfe是对基础总体误差方差的估计的自由度n - p - 1。dfe是对基本population误差方差估计的n - p - 1自由度。
在调整后的R2可以通过重写普通的R^2来得到。
这里
分别是估计残差和因变量的样本方差。
adjusted R^2与R^2没有相同的解释,而R2是一种适应的度量,adjusted R^2则是替代explanators的适用性的比较方法。因此,在解释和报告这一统计数据时,必须小心谨慎。adjusted R^2在模型构建的feature selection特征选择阶段特别有用。
来源:wiki, URL: https://en.wikipedia.org/wiki/Coefficient_of_determination
发展历史
Cox and Snell's R^2基于模型的log likelihood,与基线模型的log likelihood相比。然而,对于分类结果,它的理论最大值小于1,即使是一个“完美”模型。
Nagelkerke的 R^2是Cox & Snell R-square的一个调整后的版本,它调整统计量的范围,覆盖从0到1的全部范围。
McFadden的R^2是另一种版本,它基于log likelihood的内核,用于intercept-only model和完整的估计模型。
什么构成一个“good”R^2值在不同的应用领域都有所不同。虽然这些统计数据本身是有启发性的,但它们在比较相同数据的竞争模型时是最有用的。根据这一标准,R^2统计量最大的模型是“best”。
而决定系数R^2页广泛运用在回归中来作为一种评判标准。2010年,Renaud, O., & Victoria-Feser, M. P.D 对回归问题提出一个健壮的决定系数。
来源:WIKI ; URL:https://link.springer.com/content/pdf/10.1007/s10601-011-9109-4.pdf
主要事件
年份 | 事件 | 相关论文/Reference |
1974 | McFadden, D对R^2进行调整 | McFadden, D. 1974. Conditional logit analysis of qualitative choice behavior. In: Frontiers in Economics, P. Zarembka, eds. New York: Academic Press. |
1989 | Cox & Snell提出Cox & Snell R-square | Cox, D. R., and E. J. Snell. (1989). The Analysis of Binary Data, 2nd ed. London: Chapman and Hall. |
1987 | Helland, I. S.提出一个简单的近似置信区间 | Helland, I. S. (1987). On the interpretation and use of R2 in regression analysis. Biometrics, 61-69. |
1991 | Nagelkerke's R^2是Cox & Snell R-square的一个调整后的版本,它调整统计量的范围,覆盖从0到1的全部范围 | Nagelkerke, N. J. (1991). A note on a general definition of the coefficient of determination. Biometrika, 78(3), 691-692. |
2010 | Renaud, O., & Victoria-Feser, M. P.D 对回归问题提出一个健壮的决定系数 | Renaud, O., & Victoria-Feser, M. P. (2010). A robust coefficient of determination for regression. Journal of Statistical Planning and Inference, 140(7), 1852-1862. |
发展分析
瓶颈
所有的数据都包含一个不可解释的自然变化量。不幸的是,R^2 不尊重这个自然规律。追逐高 R^2 促使我们包含太多的预测因子,试图解释无法解释的东西。
在这些情况下,可以实现更高的R^2,但代价是误导结果,降低了精度,并降低了预测的能力。
未来发展方向
adjusted R-squared和 predicted R-squared帮助你评估模型中预测因子的数量:
- 使用adjusted R-squared来比较不同数量的预测因子的模型。
- 使用 predicted R-squared来确定模型预测新观测值的能力,以及模型是否过于复杂
URL: http://blog.minitab.com/blog/adventures-in-statistics-2/multiple-regession-analysis-use-adjusted-r-squared-and-predicted-r-squared-to-include-the-correct-number-of-variables
Contributor: Ruiying Cai