降维

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

来源:机器之心
简介

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

[描述来源:机器之心;URL:https://www.jiqizhixin.com/articles/2017-08-31-2]

在机器学习和统计学领域,降维是指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程。 降维可进一步细分为特征选择和特征提取两大方法。

特征选择假定数据中包含大量冗余或无关变量(或称特征、属性、指标等),旨在从原有变量中找出主要变量。其代表方法为最小绝对值收敛和选择算子、套索算法(LASSO)。

特征提取是将高维数据转化为低维数据的过程。在此过程中可能舍弃原有数据、创造新的变量,其代表方法为主成分分析。

降维的优势:

1.减少计算时间且节省存储空间

2.提高机器学习模型的性能

3.便于可视化

[描述来源:维基百科;URL:https://zh.wikipedia.org/wiki/%E9%99%8D%E7%BB%B4]

例子:降维看上去很像压缩。这是为了在尽可能保存相关的结构的同时降低数据的复杂度。如果你有一张简单的 128×128×3 像素的图像(长×宽×RGB 值),那么数据就有 49152 维。如果你可以给这个图像空间降维,同时又不毁掉图像中太多有意义的内容,那么你就很好地执行了降维。

[描述来源:机器之心;URL:https://www.jiqizhixin.com/articles/2017-08-31-2]

发展历史

描述

Pearson于1901年提出主成分分析法,多用于回归分析和聚类分析中,是特征提取的一种代表方法。而线性判别式分析(Linear Discriminant Analysis,LDA)作为模式识别的经典算法,在1996年由Belhumeur引入到模式识别和人工智能领域。之后有多种监督式或者非监督式的降维方法用于模式识别和计算机视觉中。

主要事件

年份事件相关论文/Reference
1901Karl Pearson提出主成分分析法Peason, K. (1901). On lines and planes of closest fit to systems of point in space. Philosophical Magazine, 2(11), 559-572.
1996Belhumeur将LDA方法用于人脸识别Belhumeur, P. N., Hespanha, J. P., & Kriegman, D. J. (1996, April). Eigenfaces vs. Fisherfaces: Recognition using class specific linear projection. In European Conference on Computer Vision (pp. 43-58). Springer, Berlin, Heidelberg.
2000引入了LLE降维方法,可用于无监督学习。Roweis, S. T., & Saul, L. K. (2000). Nonlinear dimensionality reduction by locally linear embedding. science, 290(5500), 2323-2326.
2000提出了一种全面通用架构用于非线性降维Tenenbaum, J. B., De Silva, V., & Langford, J. C. (2000). A global geometric framework for nonlinear dimensionality reduction. science, 290(5500), 2319-2323.
2003提出拉普拉斯特征图方法Belkin, M., & Niyogi, P. (2003). Laplacian eigenmaps for dimensionality reduction and data representation. Neural computation, 15(6), 1373-1396.
2008采用t-SNE方法降维,目的是为了实现可视化功能Maaten, L. V. D., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of machine learning research, 9(Nov), 2579-2605.

发展分析

瓶颈

-降维方法自身目标函数存在缺陷

-特征值分解时存在的数值问题

-会受到维数灾难的影响

未来发展方向

将继续应用在数据压缩和提升机器学习效率方面,以及对数据可视化任务的实现上。

Contributor: Yueqin Li

相关人物
Peter N. Belhumeur
Peter N. Belhumeur
Lawrence K. Saul
Lawrence K. Saul
简介
相关人物