Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

2亿参数时序模型替代LLM?谷歌突破性研究被批「犯新手错误」

照箭画靶,跑分自设标准?

最近,谷歌的一篇论文在 X 等社交媒体平台上引发了一些争议。

这篇论文的标题是「A decoder-only foundation model for time-series forecasting(用于时间序列预测的仅解码器基础模型)」。
图片
简而言之,时间序列预测就是通过分析历史数据的变化趋势和模式,来预测未来的数据变化。这类技术在气象预报、交通流量预测、商业销售等领域有着广泛的应用。例如,在零售业中,提高需求预测的准确性可以有效降低库存成本并增加收入。

近年来,深度学习模型已成为预测丰富的多变量时间序列数据的流行方法,因为它们已被证明在各种环境中表现出色。

但是,这些模型也面临一些挑战:大多数深度学习架构需要漫长而复杂的训练和验证周期,急需一个开箱即用的基础模型来缩短这一周期。

谷歌的新论文就是为了解决这一问题而诞生的。在论文中,他们提出了一个用于时间序列预测的仅解码器基础模型 ——TimesFM。这是一个在 1000 亿个真实世界时间点的大型时间序列语料库上预训练的单一预测模型。与最新的大型语言模型相比,TimesFM 要小得多(仅 200M 参数)。但他们发现,即使在这样的规模下,它在不同领域和时间粒度的各种未见数据集上的零样本性能也接近于在这些数据集上显式训练的 SOTA 监督方法。

这个想法看起来很有前景,有人评价说,「TimesFM 证明了预训练大型时间序列语料库的力量。它在各种公开的基准测试中展示的零样本性能真的令人称奇」。
图片
但也有人对其采用的评估方法和基准产生了质疑,毕业于伦敦大学皇家霍洛威学院的 Valery Manokhin 博士指出,论文作者犯了一些「新手错误」,还采用了一些「欺骗性」的基准
图片
事情到底是怎么回事?我们先来看看谷歌的这篇论文写了什么。

被质疑的论文写了什么?

上周五,谷歌 AI 专门用博客介绍了这一研究。
图片
我们目前常见的大语言模型(LLM)通常在训练时仅用解码器,过程涉及三个步骤。首先,文本被分解为称为标记的子词 ——token。然后,token 被输入到堆叠的因果 transformer 层中,这些层会生成与每个输入 token 相对应的输出。最后,第 i 个 token 对应的输出总结了之前 token 的所有信息并预测第 (i+1) 个 token。

在推理过程中,LLM 一次生成一个 token 的输出。例如,当提示「What is the capital of France?」时,它可能会生成 token「The」,然后以「What is the capital of France? The」为条件。生成下一个标记「capital」,依此类推,直到生成完整的答案:「The capital of France is Paris」。

谷歌认为,时间序列预测的基础模型可以适应可变的上下文(我们观察到的内容)和范围(我们查询模型预测的内容)长度,同时具有足够的能力对大型预训练数据集中的所有模式进行编码。

与 LLM 类似,我们可以使用堆叠 transformer 层(自注意力层和前馈层)作为 TimesFM 模型的主要构建块。在时间序列预测的背景下,将 patch(一组连续的时间点)视为最近长期预测工作的 token。随后,任务是根据堆叠 transformer 层末尾的第 i 个输出来预测第 (i+1) 个时间点 patch。

在论文《A decoder-only foundation model for time-series forecasting》中,谷歌研究人员尝试设计了一个时间序列基础模型,在零样本(zero-shot)任务上取得了不错的效果:
图片
论文链接:https://arxiv.org/abs/2310.10688

该研究中,研究者设计了一种用于预测的时间序列基础模型 TimesFM,其在各种公共数据集上的 zero-shot 能力都接近于目前业内的顶尖水平。此模型是一种在包含真实世界和合成数据的大型时间序列语料库上进行预训练的,修补解码器式注意力模型,参数只有两亿。

谷歌表示,对于首次遇见的各种预测数据集进行的实验表明,该模型可以在不同领域、预测范围和时间粒度上产生准确的零样本预测。

时间序列的基础模型可以大幅减少训练数据和计算需求,为应用端带来很多好处。不过,时间序列推理的基础模型是否是一种可行的思路,人们还未有定论,首先与 NLP 不同,时间序列没有明确定义的词汇或语法。此外,新模型需要支持具有不同历史长度(上下文)、预测长度(范围)和时间粒度的预测。此外,与用于预训练语言模型的大量公共文本数据不同,大型时间序列数据集并不容易构建。

谷歌表示,尽管存在这些问题,他们还是提供了证据来肯定地回答上述问题。
图片
图 1:训练过程中的模型架构。其中显示了可以分解为输入补丁的特定长度的输入时间序列。

它与常规的语言模型有几个关键的区别。首先,我们需要一个具有残差连接的多层感知器块,将时间序列 patch 转换为可以与位置编码(PE)一起输入到 Transformer 层的 token。为此,谷歌使用了与他们之前的长期预测工作类似的残差块。其次,在另一端,来自堆叠 Transformer 的输出 token 可用于预测比输入 patch 长度更长的后续时间点的长度,即输出 patch 长度可以大于输入 patch 长度。

谷歌研究者认为,即使基线针对每个特定任务进行了专门训练或调整,TimesFM 的单个预训练模型也可以在基准测试中接近或超过基线模型的性能。
图片
图 2:新方法与常规方法在三组数据集上的平均性能对比,指标越低越好。谷歌表示,在基线测试中,只有 TimesFM 和 llmtime 是零样本。
图片
图 6:在 Darts 和 Monash 数据集上的推理可视化。右侧的图放大了左侧的预测部分。

看起来,从背景到思路,方法到测试的一套流程都已走完,事情就顺理成章了,谷歌还计划在今年内通过 Google Cloud Vertex AI 向外部客户提供此模型。

哪知道论文竟引起了争议。

Valery Manokhin 提出了哪些质疑?  

对论文评估方法和所选基准提出质疑的是机器学习博士 Valery Manokhin。他的研究领域包括概率预测、符合预测、机器学习深度学习、人工神经网络、人工智能数据挖掘等。

他指出,首先,论文中使用图表(特别是图 6)以视觉方式展示模型性能是一个初学者的错误。Christoph Bergmeir 和 Hansika Hewamalage 在其教程《数据科学家的预测评估:常见陷阱和最佳实践(Forecast Evaluation for Data Scientists: Common Pitfalls and Best Practices)》中明确指出,生成预测的视觉吸引力或其可能性不是评价预测的好标准。
图片
接下来,Valery Manokhin 提到,谷歌的作者使用了一种标准策略来美化他们的「基础模型」性能,即选择那些可以被传统模型非常容易且几乎完美地拟合的经典数据集(如非常老的航空乘客数据)。而且,谷歌的作者没有选择传统模型作为基准进行比较,而是选择了另一个表现不佳的模型(llmtime)作为对照。
图片
图片
针对 Valery 提出的质疑,谷歌研究院的 Rajat Sen(论文作者之一)在帖子下面给出了回应。首先,他指出,批评者仅关注了论文中一个关于航空乘客数据集的示例,并错误地认为这是他们唯一展示的性能数据。作者澄清说他们实际上在多个数据集(Monash、Darts 和 ETT)上报告了模型的性能。
图片
而且,作者强调,他们并没有通过视觉方式来评估模型性能。图 6 仅仅是为了示例目的,而综合性能是在图 2 中报告的。
图片
图片
作者明确指出,他们没有选择性挑选结果来美化模型性能。在图 2 中,他们公正地展示了一些监督学习模型可能比他们的模型表现得更好,但他们的模型是一个零样本模型,这是一个重要的优势。

但 Valery Manokhin 随后又指出,在 Monash 数据集上,谷歌的 TimesFM 落后于其他模型。
图片
对此,Rajat Sen 指出,Valery Manokhin 忽略了一个很重要的点:TimesFM 的表现优于 Monash 上的很多既有基线,但最重要的是,这些基线是单独在这些数据集上「训练」的,而 TimesFM 是「零样本」预测的。
图片
随后,二人的争论又集中到了文中的一句话上。作者在论文的引入部分写道,「在一些预测竞赛,如 M5 竞赛(M5 “Accuracy” competition)和 IARAI Traffic4cast 竞赛中,几乎所有获胜的解决方案都是基于深度神经网络的。」Valery Manokhin 认为这句话具有误导性。
图片
图片
对此,Rajat Sen 表示,这不是文章的核心论点,还有进一步讨论的空间。
图片
如今,二人的争论还在 X 平台上持续更新,感兴趣的读者可以前去观战。

参考链接:https://twitter.com/rsen91/status/1754172587121524852
产业TimesFM时间序列预测谷歌
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

时间序列预测技术

时间序列预测法其实是一种回归预测方法,属于定量预测,其基本原理是;一方面承认事物发展的延续性,运用过去时间序列的数据进行统计分析,推测出事物的发展趋势;另一方面充分考虑到偶然因素影响而产生的随机性,为了消除随机波动的影响,利用历史数据进行统计分析,并对数据进行适当处理,进行趋势预测。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

交通流量预测技术

交通流量预测功能是基于,测量一组道路的流量数据,得到的流量预测。

推荐文章
暂无评论
暂无评论~