Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Philip G. Breen等作者魔王编译

牛顿解决不了的问题,AI或许能搞定:用神经网络解决三体问题

很多著名科学家为三体问题殚精竭虑,其面临多种复杂情况,计算成本也很高。最近的一项研究提出使用深度神经网络解决三体问题,其平均速度是当前最优求解器的 105 倍,最快速度可达后者的 1 亿倍。

三体问题(Three-body problem)是天体力学中的基本力学模型。它是指三个质量、初始位置和初始速度都是任意的可视为质点的天体,在相互之间万有引力的作用下的运动规律问题。

艾萨克·牛顿爵士在 1687 年出版的《自然哲学的数学原理》一书中首次提出了三体问题的完整数学描述,然而自那之后,对三个问题的运动方程求解仍是待解难题。目前,对于给定初始化,我们只能通过大量费时费力的迭代计算求解,且由于系统的混沌属性,这些计算的成本很高且难以预测。

来自爱丁堡大学、剑桥大学等机构的研究者利用任意精度数值积分器(可用于训练深度神经网络)在有限时间内获得多个解,该方法以固定计算成本计算出准确的解,且最快计算速度可达当前最优求解器的 1 亿倍。该结果表明,对于相空间中有计算难度的区域而言,神经网络可以替代现有的数值求解器,实现多天体系统的快速和可扩展模拟,从而解释双黑洞系统或稠密星团中核坍缩的起源等现象。

论文连接:https://www.arxiv-vanity.com/papers/1910.07291/

三体问题有多难?

牛顿的运动方程描述了空间内多个天体在自身引力作用下的演化,这些方程对于很多物理学经典问题起到重要作用。例如,这些方程解释了球状星团和星系核的动态演化,而星系核被认为是双黑洞紧密束缚在一起并最终形成引力波的地方。

大量著名科学家对此问题付出大量时间、兴趣和精力,但由于系统的混沌属性,对三体问题的运动方程求解仍然是待解难题。混沌属性通常意味着只有通过大量繁琐的数值积分才能得到可行解。解析解仅存在于几个特例中,Valtonen 等人在 2016 年提出了三体问题的通解,但该解基于无穷级数展开(infinite series expansion),且在实践中应用有限。

神经网络 vs 三体问题

来自爱丁堡大学、剑桥大学等机构的研究者进行的这项新研究新颖之处在于,在固定时间内,利用多层深度神经网络解决有 300 多年历史的三体问题。其原理验证方法证明,在有计算难度的场景中,如多次亲密接触(close encounter),神经网络可以准确匹配任意精度数值积分器的结果,而它所用的时间和碳成本只是后者的一部分。

具体方法

针对混沌问题训练人工神经网络需要集成多个不同初始化的解。获取此类训练集的唯一方式是,对大量不同实现的运动方程执行数值积分直到获得收敛解,这里研究者使用 Brutus(一种任意精度 N 体数值积分器)。

研究者将训练集限制在同一平面内三个初始速度为零的等质质点的引力问题。这三个质点的笛卡尔坐标分别为 x_1、x_2、x_3,初始位置是:x_1≡(1,0),(x_2,x_3) 位于 x 轴负方向(即 x≤0)单位半圆中的随机位置。在该系统中,仅需要指定 (x_2,x_3) 的初始位置,因为剩余一个质点的位置可以根据对称性推导得出。

此外,研究者使用无量纲单位 G=1。该物理设置允许用 2 个参数描述初始条件,用 3 个参数描述系统演化(表示 x_1 和 x_2 在给定时间的坐标)。将这个三维相空间(时间 t 和 x_2 的初始坐标)映射至质点 x_1 和 x_2 的位置,即可得到通解,而质点 x_3 的位置可以根据对称性得到。

图 1:初始质点位置的可视化图示。

数据

训练集和验证集分别包含 9900 和 100 个模拟。在每个模拟中,研究者使用 Brutus 对运动方程执行数值积分,从而随机生成质点的初始位置和计算轨迹,这通常适用于多达 10 个时间单位(每个时间单位大约是一个动态相遇时标(crossing time)。每条轨迹由约 2561 个离散时间点(标签)构成。

研究者使用包含 10 个隐藏层、128 个互联节点的前馈神经网络(见图 2 和附录 B)。通过自适应矩估计优化算法 ADAM 执行训练,训练过程中对数据执行了 10000 次传输,每个 epoch 被分割为多个 batch,batch 大小为 5000,ReLU 激活函数被设置为 max(0,x)。

向输入层输入时间 t 和质点 x_2 的初始位置,神经网络将返回 x_1 和 x_2 在时间 t 的位置,从而逼近通用三体问题的潜在解析解。

图 2:牛顿和本研究提出的深度神经网络

结果

为了测试该神经网络在不同时间段中的性能,研究者将训练数据集和验证数据集分割为三个部分:t≲3.9、t≲7.8 和 t≲10(均包含所有数据)。性能最好的神经网络是使用来自 t≲3.9 的数据训练得到的(见图 3)。

图 3:平均绝对误差(MAE)vs epoch。

神经网络在所有训练未见过场景中的性能堪比收敛解。此外,神经网络在固定计算时间(t∼10^−3 秒)内获得这样的性能,平均速度是 Brutus 的 105 倍(有时甚至可以达到 108 倍)。

理论三体神经网络天文学数学
相关数据
激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

矩估计技术

在统计学中,矩估计是估计总体参数的方法。首先推导涉及感兴趣的参数的总体矩(即所考虑的随机变量的幂的期望值)的方程。然后取出一个样本并从这个样本估计总体矩。接着使用样本矩取代(未知的)总体矩,解出感兴趣的参数。从而得到那些参数的估计。矩估计是英国统计学家卡尔·皮尔逊于1894年提出的。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~