高斯过程

简介

在概率论和统计学中,高斯过程是观测值出现在一个连续域(例如时间或空间)的统计模型。在高斯过程中,连续输入空间中每个点都与一个正态分布的随机变量相关联。此外,这些随机变量的每个有限集合都有一个多元正态分布。高斯过程的分布是所有那些(无限多个)随机变量的联合分布,正因如此,它是连续域(例如时间或空间)的分布。

高斯过程被认为是一种机器学习算法,是以惰性学习方式,利用点与点之间同质性的度量作为核函数,以从输入的训练数据预测未知点的值。其预测结果不仅包含该点的值,而同时包含该点的边际分布)。

[描述来源:维基百科 URL:https://zh.wikipedia.org/wiki/高斯过程]

为了更直观地说明高斯过程,让我们考虑线性回归问题。假设我们有输入数据x,M维的权重矩阵,而我们试图拟合函数:

y(x) = w^T \phi(x)

其中w的高斯先验分布为:

p(w) = N(w|0, \alpha^{-1} I)

是由超参数\alpha决定的。对于任何给定的w值,它决定了上上式关于x的特定函数。 因此,由上式定义的w上的概率分布能够影响函数y(x)上的概率分布。 在实践中,我们希望在x的特定值处评估该函数,例如在训练数据点x_1, ..., x_N处。 因此,我们感兴趣的是函数值y(x_1), ..., y(x_N)的联合分布,我们用向量y表示元素y_n = y(x_n),其中n = 1, ..., N。 我们可以将线性函数简写成我们熟悉的形式:

y = \Phi w

其中Φ是元素Φ_{nk}=φ_k(x_n)的设计矩阵(design matrix)。我们可以通过以下方法找到y的概率分布:

首先,我们注意到y是由w的线性组合,而w是符合高斯分布的变量,因此y服从高斯分布。 因此,我们只需要找到它的均值和协方差,为:

E[y] = \Phi E[w] = 0
cov[y] = E[yy^T] = \Phi E[ww^T] \Phi ^T = 1/\alpha \Phi \Phi ^T = K

中其中K是Gram矩阵:

K_{nm} = k(x_n, x_m) = 1/\alpha \pjo(x_n)^T\phi(x_m)

k(x, x')是核函数。

这个模型即是高斯过程的一个例子。通常,高斯过程被定义为函数y(x)上的概率分布,使得在任意一组点x_1, ..., x_N处评估的y(x)值的集合服从联合高斯分布。在输入矢量x是二维的情况下,这也可以被称为高斯随机场。

关于高斯随机过程的一个关键点是N个变量y_1, ..., y_N的联合分布完全由二阶统计量指定,即均值和协方差。在大多数问题中,我们不会有关于y(x)的平均值的任何先验知识,因此通过对称性我们将其视为零。这相当于将权重的先验概率p(w |α)的平均值选择为零。

高斯过程常用于统计建模中,而使用高斯过程的模型可以得到高斯过程的属性。例如,一随机过程以高斯过程建模,则各种导出量(包括随机过程在一定范围次数内的平均值,及使用小范围采样次数及采样值进行平均值预测的误差)的分布即能轻易得出。

[描述来源:Bishop C. M. (2006). Pattern Recognition and Machine Learning. Springer.]

发展历史

由于高斯过程是基于高斯分布(正态分布)的概念,故其以卡尔·弗里德里希·高斯为名。实际上,我们可以把高斯过程看成多元正态分布的无限维广义延伸。

2003年,Neil D. Lawrence将PCA解释为特定的高斯过程,从潜在空间到观察到的数据空间的映射。 他们证明,如果先验的协方差函数将映射约束为线性,则模型等效于PCA,然后他们通过考虑允许非线性映射的限制性较小的协方差函数来扩展模型。 使用这种更一般的高斯过程潜变量模型(GPLVM),他们展示了对三种不同数据集的高维数据的可视化的方法。 此外,他们的非线性算法可以进一步核化,甚至达到“双核PCA”。

在此基础上,2005年,他引入了双概率PCA(DPPCA)的概念。 DPPCA模型具有额外的优点,即来自嵌入空间的线性映射可以通过高斯过程容易地非线性化。 他们将此模型称为高斯过程潜变量模型(GP-LVM)。 通过对GP-LVM目标函数的分析,他们将该模型与流行的光谱技术相关联,如内核PCA和多维尺度,并在真实数据上进行了演示。

2005年,Joaquin Quiñonero-Candela, Carl Edward Rasmussen提供了一个新的统一视图,包括高斯过程回归的所有现有的适当概率稀疏近似。 他们的方法依赖于表达方法使用的有效先验,能够突出显示现有方法之间的关系。 它还允许对已知近似值与相应的完整GP的接近程度进行清晰的理论上合理的排序。

2007年,Edwin V. Bonilla, Kian Ming A. Chai, Christopher K. I. Williams研究了高斯过程(GP)背景下的多任务学习。 他们提出了一个模型,该模型学习输入相关特征的共享协方差函数和任务上的“自由形式”协方差矩阵。 这在建模任务间依赖性时允许良好的灵活性,同时避免需要大量数据用于训练。 他们表明,在无噪声观测和块设计的假设下,给定任务的预测仅取决于其目标值,因此任务间转移的问题能够得到解决。

2008年,Aaron Hertzmann等人引入用于非线性时间序列分析的高斯过程动力学模型(GPDM),来从高维运动捕获数据学习人体姿势和运动的模型。 GPDM是潜变量模型,它包括具有相关动力学的低维潜在空间,以及从潜在空间到观察空间的映射。 他们通过对动力学和观察映射使用高斯过程先验,以封闭形式边缘化模型参数。 这样动态系统的非参数模型能考虑到模型中的不确定性。 他们演示了该方法并比较了人体运动捕捉数据的四种学习算法。

2011年,He He和Wan Chi Siu使用高斯分布,解决了从单个低分辨率图像生成高分辨率图像而无需任何外部训练集的问题。 他们提出了一个仅使用原始低分辨率图像及其模糊版本的放大和去模糊的框架。 每个像素由其相邻像素通过高斯过程回归来预测。 他们证明,当使用的协方差函数合适时,高斯过程回归可以基于它们的局部结构执行像素的软聚类。他们进一步证明,该算法可以提取包含在单个低分辨率图像中的足够信息,以生成具有锐边的高分辨率图像。

主要事件

年份事件相关论文/Reference
2003Neil D. Lawrence将PCA解释为特定的高斯过程,从潜在空间到观察到的数据空间的映射Lawrence, N. D. (2003). Gaussian process latent variable models for visualisation of high dimensional data. NIPS. pp 329-336.
2005他引入了双概率PCA(DPPCA)的概念Lawrence, N. D. (2005). Probabilistic Non-linear Principal Component Analysis with Gaussian Process Latent Variable Models. JMLR. 6: 1783-1816.
2005Joaquin Quiñonero-Candela, Carl Edward Rasmussen提供了一个新的统一视图,包括高斯过程回归的所有现有的适当概率稀疏近似Quiñonero-Candela, J.; Rasmussen, C. E. (2005). A Unifying View of Sparse Approximate Gaussian Process Regression. JMLR. 6: 1939-1959.
2007Edwin V. Bonilla, Kian Ming A. Chai, Christopher K. I. Williams研究了高斯过程(GP)背景下的多任务学习Bonilla, E. V.; Chai, K. M. A.; Williams, C. K. I. (2007). Multi-task Gaussian Process Prediction. NIPS.
2008Aaron Hertzmann等人引入用于非线性时间序列分析的高斯过程动力学模型(GPDM)Wang, J. M.; Fleet, D. J. and Hertzmann, A. (2008). Gaussian Process Dynamical Models for Human Motion. IEEE Transactions on Pattern Analysis and Machine Intelligence. 30(2): 283-298.

2011He He和Wan Chi Siu使用高斯分布,解决了从单个低分辨率图像生成高分辨率图像而无需任何外部训练集的问题He, H. and Siu, W. (2011). Single image super-resolution using Gaussian process regression. CVPR. pp. 449-456.

发展分析

瓶颈

协方差的长度参数显着地影响后验概率的区间形状以及其中的样本,适当设置这些参数是使用 GP 的一个普遍难点。

未来发展方向

GP 一般应用于评估样本有较高成本的情况,即GP能比较好的处理小样本问题;此外,GP可以快速地搜索函数最小值。梯度下降也是常用的方法,但是如果函数不具备凸性,通常需要重复采样。在这种情况下,GP是更一般的探索式策略的起点,即平衡「优化当前已知最小值的目标」与「寻找可能更小的新局部最小值的目标」,因而效率更高。

Contributor: Yuanyuan Li

相关人物
Joaquin Quiñonero-Candela
Joaquin Quiñonero-Candela
 Christopher K. I. Williams
Christopher K. I. Williams
Neil D. Lawrence
Neil D. Lawrence
Aaron Hertzmann
Aaron Hertzmann
卡尔·爱德华·拉斯穆森
卡尔·爱德华·拉斯穆森
图书: 机器学习的高斯过程, Evaluation of Gaussian Processes and Other Methods for Non-linear Regression [microform]
简介
相关人物