因子分析

因子分析在统计学中是一种常用的降维方法,目的在于用更少的、未观测到的变量(factor)描述观测到的、相关的变量。更准确的来说,因子分析假设在观测到的变量间存在某种相关关系,从观测变量的矩阵内部相关关系出发找到潜变量(latent variables)从而使得潜变量和观测变量之间的关系成立

简介

因子分析在统计学中是一种常用的降维方法,目的在于用更少的、未观测到的变量(factor)描述观测到的、相关的变量。更准确的来说,因子分析假设在观测到的变量间存在某种相关关系,从观测变量的矩阵内部相关关系出发找到潜变量(latent variables)从而使得潜变量和观测变量之间的关系成立:

x_{i}-\mu_{i}=l_{i1}F{i1}+...+l_{lik}F_{k}+\epsilon_{i}

上式中x_i为p个观测到的变量(i=1,2,…,p),Fj为k个潜变量(j=1,2,...,k),l_ij为即潜变量的负载(loading),观测到的变量为潜变量——有时也称为公共因子——的的线性组合,上式最后一项为未观测到的随机误差项,也被称为特殊因子,对每一个观测到的变量x_i,特殊因子有可能不同。

得到的潜变量需要满足以下假设:

  1. 潜变量与随机误差项之间互相独立;
  2. 潜变量的期望为0;
  3. 潜变量之间互相独立;

上述方法能够成功的重要假设是观测到的变量之间存在相关性,并且这种关系能够用不相关的潜变量用线性回归模拟,从而使得k<p。

因子分析可以用下图直观的表示:

[图片来源: 维基百科 https://en.wikipedia.org/wiki/File:FactorPlot.svg]

在三维空间中,观测到的变量Za被投射到二维空间(F1,F2),即Za可以由F1,F2线性回归估计,l_a1和l_a2为线性回归的系数,而Z_a在z轴上的投射即为线性回归的残差,也就是Z_a的特殊因子,用F1,F2无法解释。

以学生的考试成绩为例,一名学生的智力水平可以通过数学成绩、语文成绩、英语成绩等6个变量反应,通过因子分析,可以将数学成绩等变量总结为数学智力(mathematical intelligence),而将语文成绩和英语成绩总结为语言智力(verbal intelligence)。因此,2个潜变量成功总结了6个观测变量。在实际应用中,往往需要对得到的因子负载(factor loading)矩阵进行旋转,从而得到有实际意义的、可解释的因子,常用的方法有方差最大值法(Varimax rotation)、四次方最大值法(Quartimax)、相等最大值法(Equamax)等。

因子分析分为探索性因子分析(Exploratory Factor Analysis, EFA)与验证性因子分析(Confirmatory Factor Analysis, CFA),前者在展开因子分析前对因子模型没有任何假设,而后者则是用因子验证事前假设的因子结构与观测数据是否一致,因而叫做验证性因子分析。

[描述来源:Bartholomew, D.J.; Steele, F.; Galbraith, J.; Moustaki, I. (2008). Analysis of Multivariate Social Science Data. Statistics in the Social and Behavioral Sciences Series (2nd ed.). Taylor & Francis.]

[描述来源:维基百科 URL:https://en.wikipedia.org/wiki/Factor_analysis#Definition]

发展历史

描述

C. E. 斯皮尔曼于1904年基于他对智力的研究提出二因素论,即人的智力分为g因素(“一般因素”)和s因素(特殊因素),从而形成了因子分析的最早版本。随后,Raymond Cattell 对因子分析的应用范围进行了扩展,将其应用至性格分析上。他还对因子分析的方法做出了重要贡献,包括使用陡坡图(scree test)决定应该提取的因子数量、普鲁克矩阵旋转(“Procrustes” oblique rotation strategy)等。Richard Gorsuch基于他的研究在此基础上提出了探索性因子分析(EFA)的方法。在Raymond Cattell研究的同一时期,Horn提出了Horn‘s parallel analysis(PA),一种基于抽样方法决定因子数量的方法,现在已经成为最常用的方法之一。也有许多其他学者在这个领域进行研究,我们今天所用的方法大部分都是在这段时期被提出的。

如上文所述,因子分析最早作为心理学研究的方法被发明,至今仍是心理学领域的重要分析方法。其随后被被引入商业领域,如进行市场调查分析,现在也是商业分析常用的方法之一。

主要事件

年份事件相关论文/Reference
1904C. E. 斯皮尔曼基于他对于智力的研究提出"g" theory,即可能存在一些潜在的共同因子影响智力。Spearman, C. (1904). "General Intelligence," Objectively Determined and Measured. The American Journal of Psychology.
1965Horn提出Horn's parallel analysisHorn, J. L. (1965). A rationale and test for the number of factors in factor analysis. Psychometrika, 32, 179-185.
1977Raymond Cattel将因子分析的应用扩展至性格研究。attell, R. B. & Kline, P. (1977). The Scientific Analysis of Personality and Motivation. New York: Academic.
1966-78Raymond Cattel提出了陡坡图(scree plot)和矩阵旋转等因子分析方法。Cattell, R. B. (1966). The Scree Test for the number of factors. Multivariate Behavioral Research, 1(2), 245-276.Cattell, R. B. (1978). The Use of Factor Analysis in Behavioral and Life Sciences. New York: Plenum.

发展分析

瓶颈

有关因子分析的研究非常丰富,其研究方法也非常多,但不少研究方法——特别是关于如何确定应该提取的因子数量的方法——或者过于主观,如陡坡图(scree plot),或者不够稳健,如 parallel analysis (PA),因此目前学界并没有就分析方法的选择达成一致,进行因子分析时的方法选取和结果理解不免因研究人员的主观性而有所偏差。

未来发展方向

如上文所述,如何建立一个客观、稳定的因子分析方法不失为一个研究方向。

Contributor: Yuanyuan Li

相关人物
Raymond Bernard Cattell
Raymond Bernard Cattell
Charles Edward Spearman
Charles Edward Spearman
约翰·L·霍恩
约翰·L·霍恩
约翰·L·霍恩(1928-2006)是一名认知心理学家,也是发展多元智能理论的先驱,先后任教于加州大学伯克利分校(心理学讲师)、丹佛大学(心理学副教授)等知名学府。 他和Raymond Cattell一起发展了流体-晶体智能理论。
简介
相关人物