Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

LLM用于时序预测真的不行,连推理能力都没用到

语言模型真的能用于时序预测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该是否定的。事实似乎也果然如此:强大如斯的 LLM 并不能很好地处理时序数据。

图片

时序,即时间序列,顾名思义,是指一组按照时间发生先后顺序进行排列的数据点序列。

在很多领域,时序分析都很关键,包括疾病传播预测、零售分析、医疗和金融。在时序分析领域,近期不少研究者都在研究如何使用大型语言模型(LLM)来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序列数据中的顺序依赖关系。这个假设并不令人意外,毕竟语言模型是现在机器学习领域的香饽饽。

那么,语言模型究竟能给传统时序任务带去多大助益?

近日,弗吉尼亚大学和华盛顿大学一个团队尝试解答了这一问题,并最终给出了一个简单却又重要的主张:对于时序预测任务,使用语言模型的常用方法的表现都接近或劣于基本的消融方法,但前者所需的计算量比后者多几个数量级。

图片

  • 论文标题:Are Language Models Actually Useful for Time Series Forecasting?

  • 论文地址:https://arxiv.org/pdf/2406.16964

这些发现是该团队通过大量消融研究得到的,其中揭示出当前时序预测研究中存在一个「令人担忧的趋势」。

但该团队也表示:「我们的目标并不是暗示语言模型永远无法用于时间序列。」事实上,近期一些研究表明语言和时间序列之间具有很好的互动潜力,可以处理时间序列推理和社交理解等任务。

相反,他们的目标是强调这一惊人发现:对于已有的时间序列任务,现有方法几乎没有用到预训练语言模型那与生俱来的推理能力。

实验设置

该团队使用了三种最先进的时间序列预测方法,并为 LLM 提出了三种消融方法:w/o LLM、LLM2Attn、LLM2Trsf。

为了评估 LLM 在时间序列预测任务上的有效性,他们在 8 个标准数据集上对这些方法进行了测试。

用于语言模型和时间序列的参考方法

他们实验了三种近期的使用 LLM 进行时间序列预测的方法。见表 2,这些方法使用的基础模型为 GPT-2 或 LLaMA,同时使用了不同的对齐和微调策略。

图片

OneFitsAll:OneFitsAll(有时也被称为 GPT4TS)方法会先对输入时间序列使用实例归一化和 patching 技术,然后将其馈送给一个线性层,以获得用于语言模型的输入表征。在训练期间,语言模型的多头注意力和前馈层会被冻结,而位置嵌入和层归一化会得到优化。最终层的作用是将语言模型的最终隐藏状态转换成预测结果。

Time-LLM:使用 Time-LLM 时,输入时间序列会被 patching 技术 token 化,并且多头注意力会将其与词嵌入的低维表征对齐。之后,将这个对齐过程的输出与描述性统计特征的嵌入一起输送给一个冻结的预训练语言模型。然后,将该语言模型的输出表征展平,并使其通过一个线性层,从而得到预测结果。

LLaTA:LLaTA 嵌入输入时间序列的方式是将每个通道都视为一个 token。该架构的一半是「文本分支」,其使用交叉注意力来将时间序列表征与语言模型词嵌入的低维表征对齐。然后将该表征传递给一个冻结的预训练语言模型,得到一个「文本式预测」。同时,该架构的「时间」分支会基于输入时间序列为预训练语言模型学习一个低秩适应器,从而得到一个用于推理的「时间预测」。该模型包含考虑这些表征之间的相似度的额外损失项。

该团队提出的消融方法

对于基于 LLM 的预测器,为了将 LLM 的影响隔离开,该团队提出了三种消融方法:移除 LLM 组件或将其替换成一个简单模块。

图片

具体来说,对于上述三种方法中的每一种,他们都进行了以下三项修改:

w/o LLM,见图 1b。完全移除语言模型,直接将输入 token 传递给参考方法的最终层。

LLM2Attn,见图 1c。将语言模型替换成单个随机初始化的多头注意力层。

LLM2Trsf,见图 1d。将语言模型替换成单个随机初始化的 Transformer 模块。

在上述消融研究中,预测器的其余部分都保持不变(可训练)。比如,如图 1b 所示,在移除了 LLM 之后,输入编码会被直接传递给输出映射。而如图 1c 和 1d 所示,在将 LLM 替换成注意力或 Transformer 后,它们会与原始方法的剩余结构一起获得训练。

数据集和评估指标

基准数据集。评估使用了以下真实世界数据集:ETT(其包含 4 个子集:ETTm1、ETTm2、ETTh1、ETTh2)、Illness、Weather、Traffic、Electricity。表 1 给出了这些数据集的统计情况。另外还有 Exchange Rate、Covid Deaths、Taxi (30 min)、NN5 (Daily) 和 FRED-MD。

图片

评估指标。该研究报告的评估指标是预测时序值和真实时序值之间的平均绝对误差(MAE)和均方误差(MSE)。

结果

具体来说,该团队探究了以下研究问题(RQ):

  • (RQ1)预训练语言模型是否有助于提升预测性能?

  • (RQ2)基于 LLM 的方法是否值得其消耗的计算成本?

  • (RQ3)语言模型预训练是否有助于执行预测任务的性能?

  • (RQ4)LLM 能否表征时间序列中的顺序依赖关系?

  • (RQ5)LLM 是否有助于少样本学习?

  • (RQ6)性能从何而来?

预训练语言模型是否有助于提升预测性能?(RQ1)

实验结果表明,预训练 LLM 对时间序列预测任务来说还不是很有用。

图片

图片

总体而言,如表 3 所示,在 8 个数据集和 2 个指标上,消融方法在 26/26 案例中优于 Time-LLM 方法,在 22/26 案例中优于 LLaTA,在 19/26 案例中优于 OneFitsAll。

总之,很难说 LLM 可以有效地用于时间序列预测

基于 LLM 的方法是否值得其消耗的计算成本?(RQ2)

这里,根据这些方法的名义性能来评估它们的计算强度。参考方法中的语言模型使用了数亿乃至数十亿参数来执行时间序列预测。即使当这些语言模型参数冻结时,它们在训练和推理时依然会有很大的计算开销。

举个例子,Time-LLM 有 6642 M 参数,在 Weather 数据集上耗时 3003 分钟才完成训练,而消融方法仅有 0.245 M 参数,平均训练时间仅有 2.17 分钟。表 4 给出了在 ETTh1 和 Weather 数据集上训练其它方法的相关信息。

图片

至于推理时间,这里的做法是除以最大批量大小,以估计每个示例的推理时间。平均而言,相比于修改后的模型,Time-LLM、OneFitsAl、LLaTA 所用的推理时间多 28.2、2.3、1.2 倍。

图片

图 3 给出了一些示例,其中绿色标记(消融方法)通常低于红色标记(LLM),并且集中于左侧,这说明它们计算成本更低但预测性能更好。

总之,在时间序列预测任务上,LLM 的计算强度无法为性能带来相应的提升。

语言模型预训练是否有助于执行预测任务的性能?(RQ3)

评估结果表明,对于时间序列预测任务而言,使用大型数据集进行预训练实在没有必要。为了检验预训练期间学到的知识能否给预测性能带来有意义的提升,该团队实验了在时间序列数据上,对 LLaTA 进行不同组合的预训练和微调的效果。

  • 预训练 + 微调(Pre+FT):这是原始方法,即在时间序列数据上微调预训练语言模型。对于这里的 LLaTA,做法是冻结基础语言模型,学习一个低秩适应器(LoRA)。

  • 随机初始化 + 微调(woPre+FT):预训练得到的文本知识是否有助于时间序列预测?这里,随机初始化语言模型权重(由此清除了预训练的效果),再在微调数据集上从头开始训练 LLM。

  • 预训练 + 不使用微调(Pre+woFT):在时间序列数据上进行微调又能给预测性能带来多大提升呢?这里是冻结语言模型,同时放弃学习 LoRA。这能反映语言模型自身处理时间序列的性能。

  • 随机初始化 + 无微调(woPre+woFT):很明显,这就是将输入时间序列随机投射到一个预测结果。该结果被用作与其它方法进行比较的基准

图片

整体结果见表 5。在 8 个数据集上,依照 MAE 和 MSE 指标,「预训练 + 微调」有三次表现最佳,而「随机初始化 + 微调」获得了 8 次最佳。这说明语言知识对时间序列预测的帮助有限。但是,「预训练 + 无微调」与基准「随机初始化 + 无微调」各自有 5 和 0 次最佳,这说明语言知识对微调过程的帮助也不大。

总之,预训练得到的文本知识对时间序列预测的帮助有限。

LLM 能否表征时间序列中的顺序依赖关系?(RQ4)

大多数使用 LLM 来微调位置编码的时间序列预测方法都有助于理解序列中时间步骤的位置。该团队预计,对于一个有优良位置表征的时间序列模型,如果将输入的位置打乱,那么其预测性能将会大幅下降。他们实验了三种打乱时间序列数据的方法:随机混洗整个序列(sf-all)、仅随机混洗前一半序列(sf-half)、交换序列的前半和后半部分(ex-half)。结果见表 6。

图片

输入混洗对基于 LLM 的方法与其消融方法的影响差不太多。这说明 LLM 在表征时间序列中的顺序依赖关系方面并没有什么突出能力。

LLM 是否有助于少样本学习?(RQ5)

评估结果表明,LLM 对少样本学习场景而言意义不大。

他们的评估实验是取用每个数据集的 10%,再训练模型及其消融方法。具体来说,这里评估的是 LLaMA(Time-LLM)。结果见表 7。

图片

图片

可以看到,有无 LLM 的表现差不多 —— 各自都有 8 个案例表现更好。该团队也使用基于 GPT-2 的方法 LLaTA 进行了类似的实验。结果见表 8,这里消融方法在少样本场景中的表现还优于 LLM。

性能从何而来?(RQ6)

这一节评估的是 LLM 时间序列模型中常用的编码技术。结果发现,将 patching 和单层注意力组合起来是一种简单却有效的选择。

前面发现对基于 LLM 的方法进行简单的消融并不会降低其性能。为了理解这一现象的原因,该团队研究了 LLM 时间序列任务中常用的一些编码技术,比如 patching 和分解。一种基本的 Transformer 模块也可用于辅助编码。

结果发现,一种组合了 patching 和注意力的结构在小数据集(时间戳少于 100 万)上的表现优于其它大部分编码方法,甚至能与 LLM 方法媲美。

图片

其详细结构如图 4 所示,其中涉及将「实例归一化」用于时间序列,然后进行 patching 和投射。然后,在 patch 之间使用一层注意力进行特征学习。对于 Traffic(约 1500 万)和 Electricity(约 800 万)等更大的数据集,则使用了基本 Transformer 的单层线性模型的编码表现更优。在这些方法中,最后还要使用单层线性层来投射时间序列嵌入,从而得到预测结果。

总之,patching 对编码而言非常重要。此外,基本的注意力和 Transformer 模块也能为编码带来有效助益。

工程时序预测
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

层归一化技术

深度神经网络的训练是具有高度的计算复杂性的。减少训练的时间成本的一种方法是对神经元的输入进行规范化处理进而加快网络的收敛速度。层规范化是在训练时和测试时对数据同时进行处理,通过对输入同一层的数据进行汇总,计算平均值和方差,来对每一层的输入数据做规范化处理。层规范化是基于批规范化进行优化得到的。相比较而言,批规范化是对一个神经元输入的数据以mini-batch为单位来进行汇总,计算平均值和方法,再用这个数据对每个训练样例的输入进行规整。层规范化在面对RNN等问题的时候效果更加优越,也不会受到mini-batch选值的影响。

时间序列预测技术

时间序列预测法其实是一种回归预测方法,属于定量预测,其基本原理是;一方面承认事物发展的延续性,运用过去时间序列的数据进行统计分析,推测出事物的发展趋势;另一方面充分考虑到偶然因素影响而产生的随机性,为了消除随机波动的影响,利用历史数据进行统计分析,并对数据进行适当处理,进行趋势预测。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

时序预测技术

时序预测(时间序列预测)是预测时间序列未来值(以及不确定性的边界)的任务。

推荐文章
暂无评论
暂无评论~