Racoon、魔王、小舟报道

神经受控微分方程:非规则时间序列预测新SOTA

使用神经微分方程对时间序列的动态进行建模是一个很有潜力的选择,然而目前方法的性能往往受限于对初始条件的选择。这项新研究提出了改进策略,实现了新的 SOTA 性能。

神经常微分方程是对时序动态建模的不错选择。但是,它存在一个基本问题:常微分方程的解是由其初始条件决定的,缺乏根据后续观察调整轨迹的机制。

那么如何解决这一问题呢?来自牛津大学、阿兰图灵研究所和大英图书馆的一项研究展示了,如何通过受控微分方程的数学知识解决该问题。

该研究提出的神经受控微分方程(neural controlled differential equation)模型可直接用于部分观测的不规则采样多变量时间序列的通用设置,(与之前的解决方案不同,)它甚至可以在跨观测的情况下利用节约内存的共轭反向传播(adjoint-based backpropagation)。

该研究在多个数据集上进行了实验,发现该模型超过类似的(基于 ODE 或者 RNN)模型,实现了 SOTA 性能。最后,该研究还提供了理论结果,证明该模型是通用逼近器,且该模型包含了替代性的 ODE 模型。


  • 论文链接:https://arxiv.org/abs/2005.08926

  • 代码链接:https://github.com/patrick-kidger/NeuralCDE


引言

循环神经网络(RNN)是处理序列数据(如时序数据)时常用的模型选择。通常将数据本身假定为来自潜在过程的观测序列,RNN 可以被解释为对该过程某些功能的离散近似。然而当数据是不规则采样或者不是完全可观测时,这种离散化方法通常会失效,该问题经常通过丢弃或填充数据来掩饰。一种更佳的方法是意识到,用于对潜在过程建模的模型,应该和该过程一样在时间上是连续的。

因此,针对以上问题,神经微分方程不失为一个较好的选择。然而目前方法的性能往往受限于对初始条件的选择,不能较好地捕捉时变的新数据。这项研究提出一种神经受控微分方程来解决这一问题。

方法

假设有一个完全可观测但很可能是不规则采样的时间序列:


其中每一个观测值 x_i 都具有对应的时间戳 t_i,且

定义为在有对应 knot 的神经三次样条(natural cubic spline),于是我们可将其表示为:

x 常被假设为对一个过程的离散样本,X 可看作为对该过程的近似表示。神经三次样条处理这类任务有其自身独特的潜力。

定义为任意以θ为参数神经网络模型。w 的值用于描述隐藏状态的大小。


同样,将定义为任意以θ为参数神经网络模型。


于是,可将神经受控微分方程定义为 CDE 的解:


其中使用该初始条件是为了避免平移不变性(translational invariance)。类似于 RNN,该模型的输出可能是变化过程的状态 z,也可能是最后一个状态 z_{tn},最终预测值为对该模型输出的线性映射。下图比较了之前神经微分方程的研究与本文所提方法的不同。


不规则时间序列采样预测示意图,其中左图为之前的研究,右图为本文提出的方法。

实验结果

研究者将该研究提出的方法与 GRU-∆t、GRU-D、GRU-ODE、ODE-RNN 等现有模型,在多个数据集上进行了基准对比。

CharacterTrajectories 数据集上不同数量的缺失数据

首先,该研究展示了在不规则采样时间序列上神经 CDE 的效果。

研究者首先在 CharacterTrajectories 数据集上进行实验。该数据集包含 2858 个长度为 182 的时间序列,包括笔尖 x, y 的位置以及下笔时所用的力量。

实验结果见表 1。

表 1:不同方法在 CharacterTrajectories 数据集上的测试准确率和内存使用情况。

PhysioNet 败血症预测的观测强度

接下来,研究者考虑一个既不规则采样又不完全观测的数据集,并研究观测强度的益处。

该研究使用来自 PhysioNet2019 败血症预测挑战赛的数据。这是一个含有长度不一的 40335 个时间序列的数据集,描述了病人在 ICU 内的状态。

大多数值是缺失的,只有 10.3% 的值被观测。该研究考察了病人在 ICU 内前 72 小时的状态,预测他们在整个住院期间(有些患者长达一个月)是否会发生败血症。

实验结果如表 2 所示。由于数据集高度不平衡,该研究使用了 AUC 作为度量指标,而不是准确率

表 2:在 PhysioNet 败血症预测数据集上的测试 AUC 和内存使用情况。

Speech Commands 数据集中的规则时间序列

最后,该研究展示了神经 CDE 模型在规则、完全观测的时间序列上的效果。

该研究使用 Speech Commands 数据集,实验结果如表 3 所示。

表 3:不同模型在 Speech Commands 数据集上的测试准确率和内存使用情况。
入门时间序列预测微分方程
2
相关数据
基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型,最简单的模型最有可能是最佳选择(奥卡姆剃刀)。

推荐文章
暂无评论
暂无评论~