Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

突破神经网络限制,量子蒙特卡洛研究新进展登Nature子刊

时隔四个月,ByteDance Research 与北京大学物理学院陈基课题组又一合作工作登上国际顶级刊物 Nature Communications。


时隔四个月,ByteDance Research 与北京大学物理学院陈基课题组又一合作工作登上国际顶级刊物 Nature Communications:论文《 Towards the ground state of molecules via diffusion Monte Carlo on neural networks 》将神经网络与扩散蒙特卡洛方法结合,大幅提升神经网络方法在量子化学相关任务上的计算精度、效率以及体系规模,成为最新 SOTA。


  • 论文链接:
    https://www.nature.com/articles/s41467-023-37609-3
  • 代码地址:
    https://github.com/bytedance/jaqmc

简介

作者将基于神经网络的试探波函数运用于固定节点面的扩散蒙特卡洛方法 (Diffusion Monte Carlo, or DMC) ,用以精确计算具有不同电子特性的原子以及分子系统。

扩散蒙特卡洛方法是量子化学领域精确计算分子和材料基态能量的常用方法之一。通过与扩散蒙特卡洛方法结合,作者显著提高了量子化学中神经网络 SOTA 方法的计算精度与效率。此外作者还提出了一种基于经验线性关系的外推方法,大幅改善了分子结合能计算。总体而言,该计算框架作为求解量子多体问题的高精度方法,为化学分子性质的深入理解提供了更强大的工具。

 基于神经网络的量子蒙特卡洛方法



2018 年以来,多个研究小组将神经网络运用于变分蒙特卡洛方法 (Variational Monte Carlo, or VMC) 中 [1,2,3],借助神经网络强大的表达能力,得到了更为精确的分子基态能量。本工作于 2022 年公开时,基于神经网络的变分蒙特卡洛方法中的 SOTA 工作是 DeepMind 于 2019 年提出的 FermiNet [2],能够在规模较小的体系上得到非常精确的结果。然而变分蒙特卡洛方法的精度受限于神经网络的表达能力,在处理较大体系时会有越来越明显的精度问题。此外该类方法在处理较大体系时收敛非常缓慢,对计算资源提出了巨大挑战。

扩散蒙特卡洛方法作为量子化学领域的经典高精度算法之一,具有精度高、可并行性好、适合进行大规模计算等良好的特性。此外扩散蒙特卡洛可以突破神经网络的表达能力限制,利用投影算法超越变分蒙特卡洛方法的精度。

本工作中,作者将 SOTA 的神经网络 (FermiNet) 作为试探波函数与扩散蒙特卡洛方法结合。新的计算方法相比于 FermiNet 显著提升了精度并减少了所需的计算步数。本工作中所设计并实现的扩散蒙特卡洛软件具有神经网络友好、GPU 友好、并行友好的特点,可以与广泛的神经网络波函数结合,自动提升其精度与效率。

计算结果

1. 原子

使用神经网络对大型分子体系进行量子蒙特卡洛计算时,由于算力限制,所能使用的神经网络的表达能力也会受到一定限制。为了模拟这一场景,作者使用了仅仅两层的神经网络来研究第二、三排的原子。计算结果显示随着体系变大,变分蒙特卡洛方法的精度愈来愈差,而扩散蒙特卡洛方法所带来的精度提升也愈来愈明显。


2. 分子

作者在一系列分子体系上也验证了基于神经网络的扩散蒙特卡洛方法的有效性,包括氮气分子,环丁二烯以及双水分子。在所测试的体系上均观察到了明显的计算精度提升。


3. 苯环及双苯环

本工作公开前,量子化学领域中基于变分蒙特卡洛的神经网络波函数方法只处理过 30 电子以内的小型分子。本工作首次将神经网络波函数方法应用于 42~84 个电子的体系,即苯环与双苯环。计算结果显示,扩散蒙特卡洛方法在精度上显著优于变分蒙特卡洛方法,同时可以用少一个数量级的计算步数达到相同或更优的精度。




4. 线性关系及外推方法

作者在考察神经网络的不同训练阶段所对应的能量时,在很多体系上均发现变分蒙特卡洛与扩散蒙特卡洛的计算结果具有经验性的线性关系(下左图)。使用该线性关系对双苯环的解离能计算进行外推,显著提升了计算精度,得到了吻合于化学实验的结果(下右图)。



结语与展望

本工作表明,基于神经网络的扩散蒙特卡洛方法在精度与效率上均优于变分蒙特卡洛方法。作者开源的扩散蒙特卡洛代码可以与量子化学领域不断推陈出新的神经网络 [4,5] 快速结合,实现对研究社区的赋能。此外扩散蒙特卡洛方法也可以与处理真实固体的周期性神经网络 [6]、带赝势的神经网络 [7] 等一系列方法结合,在相应任务上提升计算效果。

参考文献
[1] Han, J., Zhang, L., & Weinan, E. (2019). Solving many-electron Schrödinger equation using deep neural networks. Journal of Computational Physics, 399, 108929.
[2] Pfau, D., Spencer, J. S., Matthews, A. G., & Foulkes, W. M. C. (2020). Ab initio solution of the many-electron Schrödinger equation with deep neural networks. Physical Review Research, 2 (3), 033429.
[3] Hermann, J., Schätzle, Z., & Noé, F. (2020). Deep-neural-network solution of the electronic Schrödinger equation. Nature Chemistry, 12 (10), 891-897.
[4]  Gerard, L., Scherbela, M., Marquetand, P., & Grohs, P. (2022). Gold-standard solutions to the Schrödinger equation using deep learning: How much physics do we need?. In Advances in Neural Information Processing Systems.
[5] von Glehn, I., Spencer, J. S., & Pfau, D. (2023). A Self-Attention Ansatz for Ab-initio Quantum Chemistry. The Eleventh International Conference on Learning Representations.
[6] Li, X., Li, Z., & Chen, J. (2022). Ab initio calculation of real solids via neural network ansatz. Nature Communications, 13 (1), 7895.
[7] Li, X., Fan, C., Ren, W., & Chen, J. (2022). Fermionic neural network with effective core potential. Physical Review Research, 4 (1), 013021.
理论北京大学量子化学Nature Communications字节跳动
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~