Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Science综述:密度泛函理论在人工智能时代的核心作用

用 DFT 计算的锐钛矿晶体 (TiO2) 表面电子缺陷状态的电子密度。(来源:维也纳大学)

编辑 | 绿萝

密度泛函理论(DFT)因其较高的预测能力、适用性、通用性和计算效率,在化学和材料科学中发挥着关键作用。

来自奥地利维也纳大学、加拿大多伦多大学和德国卡塞尔大学的研究小组在《Science》发布特刊综述文章:《The central role of density functional theory in the AI age》,回顾了机器学习 (ML) 模型开发的最新进展,这些模型在很大程度上依赖于 DFT 来生成合成数据和设计模型架构。在化学和材料科学更广泛的背景下,基于 DFT 的机器学习模型已经达到了高效率、准确性、可扩展性和可转移性,并为自动驾驶实验室中成功的实验规划软件的常规使用铺平了道路。

图片

毫无疑问,我们生活在人工智能(AI)时代。AI 影响着我们日常生活的方方面面,例如自然语言处理、计算机视觉和预测。

近 20 年前,一位名为「Adam」的人工智能机器人科学家被引入合成生物学领域,以协助和加速科学发现。然而,在化学和材料的机器人和自主实验方面直到最近才取得进展。

化学和材料领域的自动驾驶实验室的成功将在很大程度上取决于基于 ML 的控制软件的可用性,该软件能够以足够的实时精度可靠地预测和排序整个材料和化合物空间(Chemical Compound Space,CCS)的实验结果。

不幸的是,量子和统计力学的相关方程只能对最简单的系统精确求解,因此需要近似表达式的数值解。

CCS 中基于物理的计算设计和材料和分子发现的方法开发是一项长期挑战,并推动了数十年的原子模拟研究应用与原子科学一样多样化。所有这些努力的共同点是,他们试图虚拟地导航 CCS,以缩小后续实验验证和表征的搜索空间。

DFT 是从第一性原理计算气态和凝聚态系统的性质和行为的预测能力和计算负担之间最有效的折衷方法。

大量评论描述了进一步的改进,强调了数值再现性的重要性,或强调了电子密度作为除能量之外的质量衡量标准的重要性。

图片

图 1:机器学习面临的挑战。(来源:论文)

近年来,引入了严重依赖 DFT、基于物理的监督量子机器学习 (QML) 方法。在研究量子计算加速机器学习的潜力时,不要将其与 QML 的替代使用混淆。基于物理的 QML 在该领域取得的令人鼓舞(如果不是压倒性的)进展源于其普遍的泛化能力,只要提供足够的和有代表性的数据进行训练,就可以可靠地推断出跨 CCS 的样本外化合物的量子可观测值。

泛化统计替代模型(ML)的出现表明科学第四个支柱的形成。这个概念是普遍适用的,甚至超越了化学和材料科学。更具体地说,第一、第二、第三和第四支柱对应于手动实验、解释和预测实验观测值的理论框架、理论框架计算复杂方程的数值模拟工具以及利用实验中编码的关系的统计学习方法。或模拟训练数据来分别推断可观测值。这些支柱显然是相互构建的,而 DFT 可以被视为桥接和包含它们。

下图说明了在 ML 模型中使用 DFT 的一些可能方法。研究人员为了证实对 DFT 在第四个科学支柱中发挥的关键作用,将回顾许多从中受益匪浅的具体 ML 贡献。

图片

图 2:概念概述。(来源:论文)

为此,本综述分为四个类别:效率、准确性、可扩展性和可转移性 (EAST)。EAST 组件代表了一种直观的排序原则,使其能够有意义地讨论、区分和比较化学和材料科学中构建和使用数字孪生所需的一些最重要的特征。

效率

与 DFT(或更高级的量子化学)相比,QML 模型最显著的特点之一是其训练后无与伦比的预测速度。尽管这两种方法都是从以外部势(即化学成分和几何形状)的形式进入电子哈密顿量的相同信息开始的,但 ML 模型预测是统计代理模型评估,相当于简单而有效的线性代数运算,通常比 DFT 快多个数量级。

然而,为了充分评估机器学习模型的效率,必须考虑测试和训练的计算负载以及数据采集的相关成本。在 CCS 背景下,数据通常稀缺,而数据采集起着至关重要的作用。ML 模型的复杂性大致与用于模型训练和测试的参数数量成正比。与参数神经网络或随机森林模型相反,随着训练化合物数量的增加,非参数机器学习模型的效率会降低。此外,日益复杂的表示会降低模型效率。相当多的当代机器学习研究致力于通过硬件(图形处理单元)以及模型架构(优化器和表示)最大化数值效率。

通常,机器学习模型的效率和预测能力之间需要权衡。为了更好地处理效率和泛化能力之间的这种权衡,可以依靠主动学习方案比随机选择更有效地对训练数据进行采样。
图片
图 3:用于对化合物空间进行采样的预算感知计算策略。(来源:论文)

或者,可以利用各种类型的 Δ-ML 通过学习标签(而不是绝对标签)校正来提高预测准确性,从而利用较低级方法中准确反映的趋势以及误差消除。

图片

图 4:雅各布阶梯(左)指的是越来越不近似的参数化的层次结构,通常用于对精确的未知交换相关潜力进行建模。(来源:论文)

此外,除了单纯的 Δ-ML 和迁移学习之外,还可以通过使用多级网格组合 QML (CQML) 方法来利用多个量子近似之间的相关性。CQML 类似于复合量子化学(通常基于 DFT)或 DFT 中的「雅各布阶梯」,并允许在基组和电子相关维度的分层数据集中进行系统误差消。

除了努力使 DFT 属性驱动的 ML 更加高效之外,降低成本的另一个有希望的方向是使用 ML 来帮助改进无轨道 DFT,即通过 ML 直接从数据中获得动能密度泛函来消除 KS-DFT 中动能项对轨道的显式依赖。

高效的机器学习模型使我们能够最大限度地减少数据需求和模型复杂性。通过遵守奥卡姆剃刀定律,所得的 ML 模型将能够通过自主机器人执行和实验评估在虚拟和现实世界中实现整个 CCS 的快速迭代。

准确性

对更多参考数据进行训练将产生更准确的机器学习模型。

迄今为止引入的大多数基于 DFT 的 ML 模型大致属于以下三类中的任何一类:电子观测值的学习、最近推出的混合 ML/DFT 方法、ML 密度泛函。

电子观测值的学习

电子可观测量的学习,即密度或波函数的电子细节已被积分出来的量子力学平均值,依赖于基于与模型哈密顿量相同的信息的输入:原子坐标, 核电荷、电子数和多重性。经过训练后,直接 QML 类似于 DFT 的黑盒使用,并且是迄今为止最常用的方法。由于化合物空间在形式上与化学元素和原子位置所表现的 4N 维度组合增长,因此直接学习的主要缺点是,由于训练数据需求过高,它通常会达不到所需的精度。

最近推出的混合 ML/DFT 方法

最近引入的混合 ML/DFT 方法通过学习有效哈密顿量作为中间量来改进 DFT 模型构建,从中可以直接得出目标属性。除了提高精度之外,这种混合方法还可以为密集特性提供更好的精度,例如 HOMO(最高占据分子轨道)和 LUMO(最低未占据分子轨道)之间的能隙。同样,ML 策略改进了半经验量子化学和紧束缚 DFT。

ML 密度泛函

ML 密度泛函有两种变体。第一个是在 KS-DFT 框架内,基于更高级别的参考数据 [例如 DFT/CCSD 密度和 CCSD(T) 能量] 改进从电子密度到交换相关能量的映射。通过这种方法,可以高精度地近似精确的未知交换相关函数。然而,主要缺点是与动能和交换项中轨道的明确依赖性相关的计算成本未被消除。

DFT 中的数值近似源于对某些物理效应的谨慎忽略。为了达到实验准确性,机器学习模型最终甚至可能需要包含实验观测值,以保证对合成计算方法的改进,例如通过自动化和数据驱动的方法。

鉴于所概述的策略,DFT 上的 ML 已经达到了可以可靠预测材料性能的程度,但需要自主实验探索来进一步提高准确性和适用性。

可扩展性

可扩展性对于研究更大、更复杂的电子系统至关重要。尽管基于线性缩放 DFT 的实现已经取得了很大进展,但 DFT 通常与系统尺寸成三次缩放,这比精确的 post-HF 方法有利得多 。然而,常规使用从头算分子动力学模拟,使用最精确的DFT,特别是混合或 range 分离的 DFT,对于较大的系统来说很快变得难以捉摸。机器学习在这方面也可以提供帮助,最常见的是通过将广泛属性的模型划分为原子贡献。

机器学习模型的可扩展性也可以从更化学的意义上进行评估,即仅在较小的系统上进行训练后泛化到更大的查询系统的能力。

在实践中,可扩展的机器学习模型具有必要但不充分的要求,即它对表示进行粗粒度处理,以便可以忽略可忽略的远程交互。提高可扩展性可能是最先进的机器学习模型最常见和最严峻的挑战之一,这可能是因为准确地包含远程交互很困难。

一旦通过 DFT 获得的短期和长期效应被可扩展的 ML 模型正确地解释,整个社区就可以负担得起对凝聚系统、大分子、缺陷甚至晶界的常规研究。

可转移性

在这里,研究人员主要将可转移性与推广整个 CCS 短期效应的能力联系起来。相比之下,远程影响通常不那么微妙和复杂,并且在可扩展性的背景下更重要。

尽管早期的研究主要集中在整个 CCS 的原理验证以及原子和原子间能量学上,但最近的研究表明,更精细的电子分辨率下的特性也可以转移。

电子层面的另一个重要且基本的概念,密度泛函(DF),被认为是可转移的。然而,根据(有偏差的)启发法构建的近似 DF 很容易出现严重的可转移性问题。可以通过对预测误差分布的深入分析来缓解,这将导致使用数据驱动的 ML 方法更系统地生成 DF。通过将额外的物理约束纳入 ML,可以增强 DF 的可迁移性。除了 DFT 之外,物理约束在相关框架中也至关重要,因为它们有助于增强波函数逼近的深度神经网络的表达能力。

跨 CCS 的高可转移性代表了 DFT 和 ML 的最终考验。到目前为止,已经取得了令人鼓舞的进展,这表明可以更自由地同时对 CCS 进行采样,从而为软件控制解决方案铺平道路,这些解决方案通常能够处理甚至奇异的化学物质和配方,例如在「自动驾驶实验」环境中。

结论

该综述回顾了 DFT 在基于 QML 的模型的出现中所发挥的重要作用,这些模型能够使用 EAST 导航化合物空间。除了量子力学近似方法方面的基本理论基础外,DFT 还成为自由选择的分子或材料的计算属性的真正杰出来源,具有可控且合理的获取成本和最受欢迎的准确性。基于 DFT 的 QML 面临的突出电子结构挑战包括表面交叉、 open-shell 和自旋轨道耦合效应、电导率和激发态动力学。然而,DFT 作为一种中等质量的方法已经非常有用,可用于多保真 QML 模型或者从基于物理的QML架构中获得灵感。

大规模、多样化和高精度的材料和分子特性数据集的可用性将仍然是开发和训练可转移 QML 模型的基本要求,这些模型可以普遍处理任何性质和化学,并且可以方便地纳入未来自动驾驶和闭环自主实验的实验规划软件中。数据的普遍缺乏是实现这一目标的最严重障碍之一。

尽管在化学和材料科学中成功地将基于物理的机器学习应用于 DFT 解决方案方面取得了显著的成就,但仍然缺乏关注底层基础的理论研究。总而言之,DFT 影响了 QML 作为从头算的求解器,不断改进基于 ML 的交换相关性、动能密度泛函的性能,作为构建有效哈密顿量的混合 DFT/ML 框架,以及作为生成高度相关和负担得起的合成数据的强大计算工具。

反思四个 EAST 类别,很明显,DFT 在连接现代科学的所有支柱(从实验到理论和模拟,再到基于物理的 ML 模型构建)方面发挥了关键作用。在前面的四个支柱的基础上,很可能在不久的将来见证下一个科学的第五个支柱的出现:整个硬科学领域的自动驾驶实验室!除了上述进展之外,这种自动驾驶实验室值得注意的关键组件将包括基于物理的 QML 模型与机器人硬件和设备的无缝集成,以在实验室中执行各种实验任务,例如制备反应物和成分,执行实验,或随后的纯化和分析所得产品。尽管它们还不能部署到任意的化学和实验中,但由于它们的数值效率和可靠性,基于 DFT 的 QML 模型很可能在实现这种集成方面发挥关键作用。

论文链接:https://www.science.org/doi/10.1126/science.abn3445

产业
暂无评论
暂无评论~