Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

偏微分方程有了基础模型:样本需求数量级减少,14项任务表现最佳

本文提出的 Poseidon 在样本效率和准确率方面都表现出色。

偏微分方程(PDEs)被称为物理学的语言,因为它们可以在广泛的时间 - 空间尺度上对各种各样的物理现象进行数学建模。常用的有限差分、有限元等数值方法通常用于近似或模拟偏微分方程。

然而,这些方法计算成本高昂,特别是对于多查询问题更是如此,因而人们设计了各种数据驱动的机器学习(ML)方法来模拟偏微分方程。其中,算子学习( operator learning)算法近年来受到越来越多的关注。

然而,现有的算子学习方法样本效率并不高,因为它们需要大量的训练样例才能以期望的准确率学习目标解算子(如图 1 所示)。这阻碍了算子学习的广泛使用,因为通过数值模拟或底层物理系统的测量来生成特定任务的训练数据非常昂贵。

图片

研究者不禁提出,如何才能显著减少 PDE 学习所需的训练样本数量?

来自苏黎世联邦理工学院等机构的研究者提出了 Poseidon,这是一种用于学习 PDE 解算子的基础模型。该模型基于多尺度 operator transformer,可实现连续时间评估。

研究者将 Poseidon 在大规模数据集上进行了预训练,然后对其进行评估。具体而言,他们在 15 项具有挑战性的下游任务上对 Poseidon 进行了评估,这些任务涵盖线性和非线性、时间相关以及椭圆、抛物线、双曲线和混合型 PDE。

结果表明,Poseidon 在样本效率和准确率方面都远远超过基线,展现出优异的性能。

Poseidon 还可以很好地泛化到预训练期间未见过的物理学问题。此外,Poseidon 可以根据模型和数据大小进行扩展,无论是预训练还是下游任务。总结来看,本文展示了 Poseidon 的惊人能力,它能够在预训练期间从非常小的一组 PDE 中学习有效表示,从而很好地扩展到下游未见过和不相关的 PDE,证明了其作为有效通用 PDE 基础模型的潜力。

这些结果首次肯定了 PDE 基础模型的可行性这一基本问题,并为进一步开发和部署 Poseidon 作为高效的通用 PDE 基础模型铺平了道路。 

最后,Poseidon 模型以及底层预训练和下游数据集都是开源的。 

图片

  • 论文地址:https://arxiv.org/pdf/2405.19101

  • 项目地址:https://github.com/camlab-ethz/poseidon

  • 论文标题:Poseidon: Efficient Foundation Models for PDEs

方法介绍

问题描述:该研究将偏微分方程表示为:

图片

然后假设图片,可以得到与时间无关的 PDE 的解:

图片

模型架构。Poseidon(图 1 和图 2)包括:i)可扩展的 Operator Transformer 或 scOT,这是一种具有(移位)窗口或 Swin 注意力机制的多尺度视觉 transformer,适用于算子学习;ii)一种新颖的 all2all 训练策略;iii)以及一个开源大型预训练数据集。

其中 scOT 是一种具有前置时间条件的分层多尺度视觉 transformer,用来处理前置时间 t 和函数空间值初始数据输入 a,以近似 PDE (2.1) 的解算子 S (t, a)。

图片

接着如图 2 (a) 所示,研究者通过 SwinV2 transformer 块对 patch 嵌入的输出进行处理,每个 transformer 块的结构表示为图片,得到:

图片

通过在 (2.3) 中引入前置时间条件层范数,该研究提出了一种时间调节策略。

图片

最后,如图 2 (a) 所示,SwinV2  transformer 块在 U-Net 类型的编码器 - 解码器架构中以层级多尺度方式排列,通过使用 patch 合并(下采样)和 patch 扩展(上采样)操作完成。

实验结果

预训练数据:研究者提供了包含 6 个算子的数据集,详细信息如下所示。

图片

下游任务:研究者在 15 个具有挑战性的下游任务上进行了实验,如表 4 所示。

图片

模型:本文考虑了三种不同的 Poseidon 模型:i) Poseidon-T ≈ 21M 个参数,ii) Poseidon-B ≈ 158M 个参数,iii) Poseidon-L ≈ 629M 个参数

实验结果显示,Poseidon 在 15 个下游任务中都表现良好,明显优于 FNO( Fourier Neural Operator )(参考论文中的图 7 - 图 21,这里只展示图 7 )。

图片

表 1 进一步支持了这一点。

图片

从表 9 可得,平均而言,Poseidon-L 仅需要 20 个样本即可达到 FNO 的 1024 个样本的误差,并且在 13 个(15 个)任务中,Poseidon-L 所需的样本比 FNO 少一个数量级。同样,从表 1 和表 9 中可以看到,对于相同数量的样本,Poseidon-L 的误差明显低于 FNO,增益范围从 10% 到 25 倍不等 ,此外,Poseidon 可以很好地泛化到未见过的物理任务。

图片

从表 1 和表 9 可以观察到,在 15 项下游任务中,Poseidon 在 14 项上的表现明显优于 CNO-FM。平均而言,CNO-FM 需要大约 100 个特定于任务的示例才能达到 FNO 的 1024 个样本的误差水平,而 Poseidon 只需要大约 20 个。由于 CNO-FM 和 Poseidon 已在完全相同的数据集上进行了预训练,因此这种性能差异很大程度上可以归因于架构差异,因为 CNO-FM 基于多尺度 CNN,而 Poseidon 的主干则是多尺度视觉 transformer。

从图 22 可以看出,随着 Poseidon 模型大小的增加,预训练数据集上的训练和评估(验证)错误都明显减少。

图片

了解更多结果,请参考原论文。

产业Poseidon苏黎世联邦理工学院
相关数据
范数技术

范数(norm),是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

推荐文章
暂无评论
暂无评论~