Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

参与:Panda

使用高斯过程的因果推理:GP CaKe 的基本思路

荷兰拉德堡德大学的研究者的一篇 NIPS 2017 论文基于对大脑中因果交互的研究,提出了一种用于因果推理的通用方法 GP CaKe。日前,相关研究者开始通过一系列文章讲解这种融合了向量自回归模型与动态因果建模两者之长的新方法的思路及其应用。本文为该系列的第一篇,阐释了 GP CaKe 的设计思路。

  • 项目地址:https://github.com/LucaAmbrogioni/GP-CaKe-project

  • 原论文:http://papers.nips.cc/paper/6696-gp-cake-effective-brain-connectivity-with-causal-kernels.pdf

我们最近开发出了一种用于时间序列数据中因果推理的全新方法 [Ambrogioni et al., 2017]。我们称之为「GP CaKe」,即具有因果核的高斯过程Gaussian Processes with Causal Kernels)。这种方法不仅缩写词(有「蛋糕」的意思)很美味,而且将向量自回归模型(VAR)那引人注目的特性与动态因果建模(DCM)优雅地结合到了一起。是的,确实是一举两得! 

我们最初是为研究心智中的有效连接(即大脑区域之间的因果交互研究)而开发了这种方法,但该方法是完全通用型的,也能用在其它任何地方 [1]。我将通过一个文章系列来解释 GP CaKe 背后的思想,本文是其中第一篇。在接下来的文章中,我将通过逐步讲解的方式解释如何使用我们在 GitHub 上提供的代码,之后我还将扩展介绍这个模型的延伸方法。

背景:对多变量时间序列的分析

这项研究的研究背景是带有一个时间维度的复杂系统。在我们的案例中可能是对多个大脑区域的激活状态的连续测量,比如通过 EEG、MEG 或 fMRI [2] 等方式,但也可以是连续的股票交易列表、天气现象以及蛋白质浓度变化等等。

在统计学和机器学习领域,建模这种复杂系统的时间序列的方法主要有两种:向量自回归(VAR)[Lütkepohl, 2005] 和动态系统理论(DST),后者通常是通过(随机)微分方程(SDE)或差分方程 [Abraham & Shaw, 1983] 实现的。我们将简要介绍这两种方法,以激发你的兴趣以及说明 GP CaKe 与它们的关联。如果你已经很了解这两种方法了,可以直接跳过这部分,查看后文有关 GP CaKe 的内容。

向量自回归

向量自回归(VAR)最基本的形式是预测一个特定变量 x_j(t) 在时间 t 的值,该变量是另一些变量 x_i 的(随机)函数,它们的关系如下 [3]:

这个等式的含义如下:

变量 x_j(t) 的信号取决于该变量从所有其它变量获得的输入。这种依赖关系的强度由自回归系数 a_ij(τ) 确定。参数 τ 是信号 x_j(t) 和 x_i(t) 之间的延后量(lag)。综合起来,这表示一个变量对另一个变量的影响可以在 τ=0 时为零(举个例子),然后这种因果影响会缓慢增大(即 a_ij(τ) 更大),只有当延后量变得很大时才会再次衰减——这意味着在遥远过去发生的某些事情现在已经不再重要了。如果我们绘制出这些系数与该延后量的函数关系,我们就会得到所谓的脉冲响应函数(impulse response function/IRF)。最后,w(t) 描述的是驱动系统的随机「创新量(innovations)」或「冲击量(shocks)」。它们能够反映 x_j(t) 的内部动态。比如说,我们国家的天气会受周边邻国天气状况的影响(即它们对我们的气候有因果影响),但也会受到我国内部情况的影响。如果 a_ij(τ)>0,我们就可以说 x_i 对 x_j 有因果影响(这一思想的实际实现将需要某些显著性测试)。这意味着因果关系的时间概念:一个变量的过去能为我们提供有关另一个变量的未来的信息。这种看待因果关系的角度也被称为 Wiener-Granger 因果关系,有时也被简称为 Granger 因果关系 [Bressler & Seth, 2011]。通过观察 IRF,我们可以明确地看到 Granger 因果交互的时间形状:

图 1:在三大金融指数上的 VAR 分析示例。左图是每个变量的时间序列,右图是最大为 10 个月的延后量的脉冲响应函数(IRF)。注意其中也包含了自响应。

动态系统理论

顾名思义,动态系统理论(DST)也就是建模了系统的动态。以经典的 Ornstein-Uhlenbeck 过程为例,如下所示:

这描述了一个随机游走过程——随着时间推移,会逐渐趋近其平均值 μ。

图 2:五个全都(渐进地)回到同一平均值 μ=0.8 的 Ornstein-Uhlenbeck 过程,但它们各自的噪声水平和回到均值的速度都各不相同。

DST 在动态因果建模(DCM)方面也有应用 [Friston, 2009]。尽管 DCM 的大多数实现都包含一个专用于 fMRI 的前向模型,将 DCM 的应用限制在了神经成像研究领域,但其核心有一个通用型的微分方程系统:

注意,其中 X=(x_1, ..., x_n)。此外,A 是一个包含 x 中变量之间固定交互的矩阵。其作用类似于 VAR 模型的自回归系数,但 DCM 中没有建模延后量。实际上,其动态所受的影响是即时的。另外的 B 和 C 项表示(节点特定的)外源输入 μ,我们这里不会对此详做讨论,因为 GP CaKe [4] 中(尚)没有与这些项类同的地方。

连续和动态的向量自回归:GP CaKe

前提内容已经足够了,现在该进入正题了 [5]。VAR 模型的难点是在实际操作中,我们没有足够多的观察来可靠地估计自回归系数。由此造成我们的脉冲响应函数充满噪声且难以解读。此外,VAR 模型只能粗略地描述系统的动态。高阶交互会被完全忽视。DCM 确实能更广泛地考虑动态,但是它却不能建模一个变量的变化和另一个变量的动态的变化之间的延迟情况,这是有问题的。DCM 的某些变体确实包含一个延后项,但会将其设置为一个常量项,而不是我们估计交互系数的值的一个区间。你可能也已经猜到了:GP CaKe 实际上将延后的交互与动态系统结合了起来。下面来一窥究竟。

GP CaKe 的组成可写成如下形式:

其中,D_j 是微分算子(即其描述了直到第 p 个导数的动态),w_j(t) 仍然是指「创新量(innovation)」或「冲击量(shock)」项,关键的 C_j(t) 是来自其它变量 i≠j 的因果效应的总和。

其中,C_i(t) 到 C_j(t) 是因果脉冲响应函数(CIRF),描述了从 i 到 j 的因果交互。从中可以看到,C_j(t) 是时间序列的求和(在所有输入变量上),并且这些时间序列与它们的脉冲响应函数进行了卷积。这个定义完全类似于 VAR 模型等式右侧的第一项,但却是连续的,而非离散的。然而,GP CaKe 并不简单地是 VAR 的连续式变体。微分算子 D_j 看似没啥作用,但实际非常关键。它描述的是一个变量的内部动态,且无论它从其它变量那里得到了什么输入——而且我们尚未描述这些动态是什么!存在一些(实际上数量很有限)可能的选项,比如,这些动态可以是我们之前见过的简单的 Ornstein-Uhlenbeck 随机游走,即一个振荡过程。不管是在什么案例中,都要记住这样一个重点:GP CaKe 假设来自其它变量的输入会通过因果脉冲响应函数影响动态 D_jx_j(t),而不只会影响 x_j(t) 本身!

让我们实现它

在下一篇文章中,我将解释如何计算因果脉冲响应函数,这与我们之前的一篇有关高斯过程回归中傅立叶变换的文章有关:https://www.mindcodec.com/the-fourier-transform-through-the-lens-of-gaussian-process-regression/。目前,我们就假设我们已经有能帮助我们完成这项任务的工具了(实际上我们确实有,参见对应的 GitHub 项目)。我们这里只是为了进行一点演示,不会涉及太多细节。我们将使用一个已知的脉冲响应函数来生成某些数据,然后会尝试使用 VAR 和 GP CaKe 来恢复它。注意,目前已经存在一些比标准的非正则化的 VAR 更好的实现,但这里只是用于解释说明,普通的 VAR 就足够了。

我们从两个变量 x_A 和 x_B 开始,它们具有如下的因果关系:

其中 τ 仍然是两个变量之间的时间延后量,而 s 则是脉冲响应的长度范围(这个函数的形状如下图中的红线所示)。为了我们当前的目的,这是一个任意的变量,我们只是随便选取了某个值。此外,我们假设这两个变量的内部动态都是 Ornstein-Uhlenbeck 过程,因此

其中,α 是该过程的弛豫系数,指示了该时间序列回到其均值(零)的速度。我们为该动态系统生成了 100 个样本,总长度为 4 秒,采样频率为 100 Hz。然后我们使用一个延后量为 100(即 1 秒)的 VAR 模型与 GP CaKe 模型恢复这个脉冲响应函数。GP CaKe 有三个重要参数,分别反映了其响应函数的时间平滑度、时间定位和噪声水平,我们会在下一篇文章详细讨论它们。现在,我直接用人工方式将这些参数设置成合理的值;在实际应用时,我们会根据数据来估计它们的值,并通过相关应用的背景知识来设置它们。图 3 展示了模拟实验的结果。可以看到,这两种方法都可以很好地区分当前存在的和不存在的连接(注意图中的纵轴是不一样的)。对于当前存在的连接,这两种方法都能在一定程度上恢复它的形状;但 GP CaKe 的结果比 VAR 的结果更加平滑且更为可靠。另外,这个响应函数在 1 秒之后没有突然的断点。

图 3:延后量为 99 的 VAR 模型与 GP CaKe 所恢复的因果脉冲响应函数。红线是基本真值交互,绿线是在 100 个样本上平均后得到的恢复结果的期望。灰绿色区域是 95% 置信区间

这个模拟实验为 GP CaKe 在实际数据上的应用提供了一个很好的起点。我们看到 GP CaKe 的结果要平滑得多,也可靠得多。这确实需要我们学习能确定响应函数的平滑度、定位和噪声水平的超参数。我们的下一篇文章将回到这个主题,并还会讲解该响应函数的实际计算方法!

理论高斯过程因果关系自回归模型
3
相关数据
因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

高斯过程技术

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

推荐文章
暂无评论
暂无评论~