Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

百万级原子模拟,从头算精度,北京科学智能研究院提出AI+大尺度电子结构模拟新方法

图片

编辑 | KX

在计算材料科学领域,准确高效地模拟材料的电子结构一直是一个非常关键而又极具挑战性的问题。基于密度泛函理论的第一性原理计算方法的高计算需求依然是大尺寸长时间材料模拟所面临的难题。

北京科学智能研究院 (AI for Science Institute, Beijing) 提出了一种基于深度学习的高效紧束缚方法,称为 DeePTB,从而高效地表示具有从头算精度的材料电子结构,极大地简化了计算复杂度,并实现百万级大尺寸结构的电子、光电响应性质的计算模拟。

当与分子动力学相结合时,DeePTB 可以同时促进原子和电子行为的有效和准确的有限温度模拟。DeePTB 的可用性弥合了电子模拟中准确性和可扩展性之间的差距,通过实现大规模电子结构计算,将推动材料科学和相关领域的发展。

相关研究以「Deep learning tight-binding approach for large-scale electronic simulations at finite temperatures with ab initio accuracy」为题,于 8 月 8 日发表在《Nature Communications》上。

图片

论文链接:https://www.nature.com/articles/s41467-024-51006-4

虽然基于 DFT 的第一性原理方法提供了准确且通用的模拟材料电子性质的方法,但是随着系统中的原子数量增加,第一性原理的计算量急剧增加,而在真实材料或者器件体系中往往包含成百万千万量级的原子数,难以很直接使用第一性原理软件完成计算模拟。

一些复杂材料场景远远超过了 DFT 方法的模拟尺寸,一方面是因为 DFT 的自洽迭代过程复杂,另一方面,DFT 需要足够大的基组来保证精度,导致产生的哈密顿量的尺寸较大,难以进行后续的性质计算。

因此使用更小和更稀疏的矩阵来描述电子哈密顿量的紧束缚(Tight-Binding, TB)方法提供了一种更为实用的替代方案。然而,传统的 TB 方法也存在精度与效率的矛盾。例如基于 Wannier 函数的 TB 方法虽然具有较高的精度,但是其构造过程需要 DFT 自洽迭代计算,仍然限制了其在大尺寸体系下的应用。

因此发展通用的 TB 哈密顿量模型方法软件框架 DeePTB 实现精度效率以及迁移率的统一,是具有重要意义的课题。

DeePTB 方法框架及特点

DeePTB 方法的整体框架图下图所示,对于给定构型中指定近邻范围内的成键原子对, 首先训练其基于物理约束下的经验公式系数,然后在此基础上提取成键原子对的局域化学环境,通过 embedding 网络构造 symmetry-preserving 描述子,并基于 fitting 网络映射为局域环境依赖的 TB 参数,突破传统模型的双中心近似,并基于 PyTorch 机器学习框架,利用 DFT 电子本征值构造损失函数,系统地进行高效的参数自动拟合。

图片

图示:DeePTB 方法架构。(来源:论文)

DeePTB 方法具有如下特点:

  • 实现精度与效率的统一,通过神经网络修正实现以经验紧束缚模型计算效率并保持第一性原理的计算精度。
  • 采用 eigenvalues 作为训练标签,用户可以灵活地选择任何 DFT 软件生产训练标签,可以是平面波基组,也可以是 LCAO 基组,也可以是任意泛函(LDA、GGA、even Hybrid functionals)。同时也可以轻松实现并处理自旋轨道耦合相互作用。
  • 使用更小的基组,相对完整的 LCAO DFT 哈密顿量,TB 使用的更小的基组,甚至做到只拟合费米面附近的能带。
  • 采用正交基组 TB 形式,无需额外处理交叠矩阵,因此可以接入大规模 TB 算法,例如 tight-binding propagation method (TBPM) ,轻松实现百万千万量级原子的第一性原理精度的电子性质计算。真正实现器件级尺寸的量子力学模拟。
  • 基于 Slater-Koster 框架,支持用户自定义经验 TB 拟合公式,并可以系统地增加神经网络修正,提高精度。为目前文献上存在各种经验拟合公式以及参数提供一个统一的实现和提高精度的训练平台。
  • 支持与分子动力学结合,实现有限温度下原子的动力学过程中以及结构系综采样中的电子结构和性质的模拟。

预测结构扰动构型的 TB 哈密顿量以及电子结构

研究人员以在电子器件中被广泛使用的 IV 族元素(C、Si、Ge、Sn)和 III-V 族化合物(如 GaAs 等)组成的半导体材料作为测试对象。

首先,进行分子动力学(MD)模拟在有限温下的结构构型采样,并基于不同 MD 轨迹的构型,使用 DFT 软件计算其对应的电子本征值作为 DeePTB 的训练和测试数据。模型测试全部体系的决定系数 (R^2≈0.9999  ) ,本征值偏差只有十几至几十个 meV 左右。其中 III-V 族化合物的测试集同时包含了立方和六方两种不同的相下的构型。

图片

图示:对 IV 组和 III-V 系统的 DeePTB 预测的验证。(来源:论文)

此外,DeePTB 模型还展现出了以下出色的泛化能力:

  • 推广到更大尺寸的超胞结构,显示出极佳的尺度可扩展性。
  • 处理应变效应,准确预测应变调控下的能带结构及带隙大小。
  • 兼容不同的 DFT 基组、泛函和自旋轨道耦合效应,表现出强大的灵活性和通用性。

图片

图示:DeePTB 向更大尺寸和应变结构的推广。(来源:论文)

百万原子尺寸高效建模

研究人员选择 III-V 族化合物 GaP 作为大尺寸建模的应用案例,构造了 50 × 50 × 50  的超胞结构。

首先基于 DP 深度势能进行 DeePMD 分子动力学模拟有限温的结构采样,然后基于得到的采样构型,利用 DeePTB 进行紧束缚模型哈密顿量的构建,并基于预测的 TB 模型使用 TBPLaS 软件实现的 TB propagation method (TBPM) 方法进行无需对角化的快速的电子性质计算,得到包括有限温下的态密度(DOS)、光电导率、介电函数以及复折射率等电子性质及光电相应,如下图所示。

图片

图示:模拟含有 10^6 个原子的 GaP 的温度相关特性。(来源:论文)

计算结果表明, DeePTB 的计算结果与文献结果符合良好,峰值位置的轻微差异主要是因为用于训练的 DeePTB 模型的交换关联泛函(GGA)倾向于低估半导体材料的电子带隙的缘故。这些结果表明了 DeePTB 高精度建模以及进行器件级尺度电子结构及性质的模拟计算的能力。

关于 DeePTB 框架的潜力

对于不同的交换关联 (XC) 函数,能带结构的色散特征大致相同。因此,原则上,可以首先在计算效率高的 XC 函数(如 LDA 或 GGA)上训练模型,然后将其转移到更昂贵、更准确的函数(如 SCAN 或 HSE)。这使得能够高度准确地描述实验可观测量,以用于接近现实的材料模拟等情况下所需的大规模模拟。

此外,对于大规模样本,模拟应变对电子特性的影响是一项计算繁琐的任务。DeePTB 可以通过在较小的样本上训练模型并将其转移到更大的系统来有效地加速这些模拟。这为电子结构应变工程的理论研究带来了优势。

MD 可以提供离子自由度的模拟,这类似于晶体结构的温度探针,其中离子振动是基本现实。在需要大规模和长时间模拟的情况下,DeePTB 可用于模拟温度和结构相关的电子特性。DeePTB 使得考虑其他实际情况(如缺陷或杂质及其对电子结构的影响)成为可能和可行。

DeePTB 探索的另一个方向是模拟磁系统的特性。鉴于 DeePTB 的这些多样化潜在应用,它可以在电子模拟领域产生深远的影响。

参考内容:https://mp.weixin.qq.com/s/StetT81-UD6AGGgv-60GPA

理论深度学习北京科学智能研究院电子结构计算材料科学
相关数据
哈密顿人物

William Rowan Hamilton爵士MRIA(1805年8月4日 - 1865年9月2日)是一位爱尔兰数学家,他为经典力学、光学和代数做出了重要贡献。 虽然哈密顿不是物理学家(他认为自己是一个纯粹的数学家)他的工作对物理学起着至关重要的作用,特别是他对牛顿力学的重新定义,现在称为哈密顿力学。 这项工作已被证明是对电磁学等经典场论的现代研究以及量子力学发展的核心。 在纯数学中,他最出名的是四元数的发明者。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

量子力学技术

量子力学(Quantum Mechanics),为物理学理论,是研究物质世界微观粒子运动规律的物理学分支,主要研究原子、分子、凝聚态物质,以及原子核和基本粒子的结构、性质的基础理论。

推荐文章
暂无评论
暂无评论~