Miles Cranmer等作者杜伟 小舟 魔王参与

普林、DeepMind新研究:结合深度学习和符号回归,从深度模型中看见宇宙

简单的符号表达式能够有效地建模世界。符号模型紧凑,具备可解释性和良好的泛化能力,但很难处理高维机器学习问题;深度模型擅长在高维空间中学习,但泛化性和可解释性却很差。那么有没有什么办法可以取二者之所长呢?这项研究做到了。


如何将深度模型转换为符号方程?

来自普林斯顿、DeepMind 等机构的研究人员提出了一种解决方案:结合深度学习和符号回归实现这一目标。

符号模型是自然科学的语言。与深度模型不同,符号模型是紧凑的、可解释的,同时具备良好的泛化能力。简单的符号表达式却是建模世界独一无二的强大方式。1960 年,物理学家尤金 · 维格纳(Eugene Paul Wigner)在《数学在自然科学中不合理的有效性》中就表达了他对数学描述物理世界的卓越能力的惊讶。

在机器学习领域,人们通过遗传算法学习符号模型。这种方法无法针对输入特征的数量进行很好地缩放。但深度神经网络可以高效学习高维空间中的模式。那么,问题来了,我们可以兼二者之所长吗?

来自普林斯顿大学和 DeepMind 等机构的研究者提出了一种通用方法,通过引入强归纳偏置来提取深度模型的符号表示。

该方法的工作原理是:首先在监督设置下训练 GNN,同时鼓励稀疏潜在表示,然后对学得模型的组件应用符号回归,从而提取显式物理关系。

该研究发现,这一方法可以从神经网络中提取正确的已知公式,包括力学定律和哈密顿动力学。此外,研究者还将该方法应用于宇宙学示例,即暗物质模拟中,并发现了一个新的解析公式。该公式可以基于邻近宇宙结构的质量分布预测暗物质的浓度。

此外,相比 GNN 本身,使用该方法从 GNN 提取的符号表达式能够更好地泛化至分布外(out-of-distribution)数据。该方法为解释神经网络,以及基于神经网络学得的表示发现新的物理学原理提供了新的方向

接下来,我们来看研究人员提出该方法的动机,以及具体方法和实验细节。

研究动机

我们都知道,科学自动化的前提是实现知识发现的自动化。但是,该过程中会出现很多问题,比如机器学习模型何时成为知识?为什么麦克斯韦方程组被认为是科学事实,而深度学习模型却只是数据插值呢?举例来说,深度学习的确无法具备符号物理模型那么好的泛化性。然而,到底是什么使简单的符号模型具备描述世界的强大性能呢?

从纯粹的机器学习角度来看,符号模型有其自身的优势,比如模型紧凑、具备显式可解释性,以及泛化性优异。「符号回归」(Symbolic regression)正是用于此类符号模型的机器学习算法,这种监督方法可以聚集多个解析函数来建模数据集。

但是,机器学习领域通常使用遗传算法来学习符号模型,遗传算法本质上类似于 Schmidt & Lipson (2009) 提出的强力程序(brute force procedure),但它无法针对输入特征的数量进行很好地缩放。因此,很多机器学习问题,尤其是高维机器学习问题很难通过传统的符号回归进行表示。

使用遗传算法的符号回归示例。算子和变量组成的二叉树表示方程,突变和交叉持续迭代并组成最佳模型。

另一方面,深度学习被证明在高维空间的学习中非常高效,但泛化性和可解释性却很差。那么,有没有什么方法可以将传统符号回归和深度学习的优势结合起来呢?该研究给出了答案。

符号回归 + 深度学习,如何实现?

这项研究采用的策略是:深度模型不仅可以预测目标,还能够将这些目标分解为低维空间中运行的较小内部函数;然后,符号回归利用解析表达式来近似深度模型的每个内部函数;最后,将提取到的符号表达式组合在一起,得到一个等价的解析模型。

具体步骤如下所示:
  • 设计一个深度学习模型,它具有可分离的内部结构和由问题引发的归纳偏置;

  • 使用可用数据对模型进行端到端训练;

  • 在训练过程中,鼓励每个内部函数输入或输出中的潜在表示保持稀疏性;

  • 用符号表达式拟合模型内部学得的不同函数;

  • 以等价的符号表达式替换深度模型中的这些函数。

具体而言,在相互作用粒子案例中,研究者选择了图神经网络架构,因为其内部结构可以分解为三个与粒子交互物理相对应的模函数(modular function)。其中 GNN 的「消息函数」相当于力,「节点更新函数」相当于牛顿运动定律。GNN 在多个基于物理学的应用中获得成功。

下图展示了该研究实验中所使用的 GNN 内部结构:

需要注意的是:不同于牛顿力学,GNN 中的消息形成高维潜在向量,节点不用表示物理粒子,边和节点模型可学习任意函数,并且输出不必为更新后的状态(updated state)。

最后,通过鼓励 GNN 中的消息来增强稀疏性,该研究降低了每个函数的维数,使得符号回归更易于提取表达式。

下图展示了结合 GNN 和符号回归提取分析表达式的过程:

实验效果

牛顿动力学

研究者在具备已知力学定律的简单多体(N-body)系统数据上训练牛顿动力学图网络。然后通过消息函数 φ^e 学得的表示,运用该方法获得已知的力学定律。

如下图 4 所示,研究者采用的数据集包含不同交互作用定律下的二维和三维多体粒子模拟。模拟本身包含 4 或 8 个粒子的质量和电荷,并以位置、速度和加速度作为时间函数的参数。

在当前系统状态下,研究者训练模型来预测每个粒子的瞬时加速度。为了探究消息表示的大小在将消息解释为力中的重要性,研究者使用 Standard、Bottleneck、L_1 和 KL 四种不同的策略来训练图网络。

模型性能

为了评估学得的模型,研究者用不同的随机种子生成了一个新的数据集。研究发现,使用 L_1 正则化的模型在大多数情况下具备最佳性能,如下表 3 所示:

表 3:不同模型在每个数据集上的预测损失。

解释消息组件

作为解释消息组件的首次尝试,研究者采用了具备最大方差(或 KL 散度)的 D 消息特征(D 是模拟的维数),并用每个特征拟合真正分力的线性组合。

研究者发现在标准设置下训练的图网络并没有显示出和分力的强相关性。

而有效消息大小被显式(瓶颈)或隐式(KL 或 L_1)限制为低维的所有其他模型所得到的消息与真实的力具备强相关关系(表 1 指出了与真实力的拟合误差),其中使用 L_1 正则化训练的模型显示出最强的相关性。

用符号回归近似内部函数

该研究展示了如何使用符号回归从消息中提取力学定律,且无需使用关于每种力的形式的先验知识。

详情请戳以下视频:

哈密顿动力学

基于牛顿动力学案例中的数据集,研究者使用哈密顿归纳偏置训练了 FlatHGN,并展示了它可以为所有问题提取标量势能,而不是力。

就性能结果而言,哈密顿模型在所有数据集上的表现都可以和 L_1 正则化模型媲美。

宇宙学中的暗物质晕

最后,研究者将该方法应用于现实问题:宇宙学中的暗物质晕。

在研究这个问题时,研究团队采用的是来自 [40] 的开源多体暗物质模拟。研究者选择了该数据集中的第零模拟,在最后一个时间步(current day Universe)该模拟包含 215,854 个暗物质晕。

下表 2 中「Best, with mass」行即为使用该研究方法提取的公式。研究者在没有质量信息的情况下做了相同的分析,并发现了一个有趣的类似公式。相邻两者之间的相对速度可用于表示质量,如表 2 所示:

在该问题中,符号表达式的泛化性能要比原本的图神经网络好很多。这又反映了尤金 · 维格纳(Eugene Wigner)的那句话:简单的符号模型语言却能够深刻地描述宇宙。
理论符号回归深度学习普林斯顿大学DeepMind
2
暂无评论
暂无评论~