Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

优于3D模型,成功率达90.6%,基于扩散的生成式AI从2D分子图探索过渡态

TSDiff 预测分布的概念说明。(来源:论文)

编辑 | X

过渡态(TS)探索对于阐明化学反应机制和动力学建模至关重要。最近,机器学习模型在 TS 几何形状(geometries)预测方面表现出了卓越的性能。然而,它们通常需要反应物和产物的 3D 构象,并以其适当的方向作为输入,这需要大量的努力和计算成本。

近日,韩国科学技术院(KAIST)的研究人员提出了一种基于随机扩散方法的生成方法,即 TSDiff,用于仅从 2D 分子图预测 TS 几何形状。TSDiff 在准确性和效率方面均优于现有的具有 3D 几何形状的 ML 模型。

此外,它能够对各种 TS 构象进行采样,因为它在训练中学习不同反应的 TS 几何分布。因此,与参考数据库相比,TSDiff 能在较低的势垒高度找到更有利的反应途径。这些结果表明,TSDiff 在高效、可靠的 TS 探索方面显示出巨大的潜力。

该研究以「Diffusion-based generative AI for exploring transition states from 2D molecular graphs」为题,于 2024 年 1 月 6 日发布在《Nature Communications》上。

图片

论文链接:https://www.nature.com/articles/s41467-023-44629-6

过渡态研究现状

过渡态是指一种瞬态分子构型,位于反应物通过最小能量路径到达产物的能垒之上,对应于势能面(PES)上的鞍点。识别 TS 是化学反应分析中的一项重要任务。尽管 TS 几何形状由于其瞬态性质而难以通过实验观察,但可以使用量子化学计算方法获得它们。

在过去的几十年里,开发了各种 TS 优化技术并应用于许多化学反应,从而提供了对不同化学现象的见解。

TS 优化方法主要有两大类:单端方法和双端方法,具体取决于输入类型。前者依赖于一组反应物的 3D 几何形状或估计的 TS。双端方法利用反应物和产物的 3D 几何形状。虽然这些传统方法在实践中被广泛使用,但它们需要大量的计算成本,并且经常出现收敛问题,使得 TS 探索成为一项相当艰巨的任务。

最近,人们对使用机器学习 (ML) 方法来研究 TS 越来越感兴趣,目的是降低传统方法的高成本。例如,已经进行了大量研究来直接估计势垒高度。然而,该研究重点关注 TS 几何形状的预测。

传统方法和机器学习方法都需要为 3D 分子几何形状进行适当的输入准备。然而,众所周知,传统方法的结果对输入结构很敏感。机器学习方法还采用反应物和产物的 3D 构象作为输入。因此,它们不可避免地会遇到相同的输入灵敏度问题。

随机生成模型:TSDiff

为了解决这个问题,KAIST 研究人员提出了这是一种机器学习模型——TSDiff,可以学习 TS 构象和 2D 分子图之间的直接映射。因此,人们可以跳过构象和方向的正确选择。

此外,TSDiff 可以采用随机扩散方法从 2D 图中生成各种可能的 TS 构象,可靠性高。因此,TSDiff 可以在整个 TS 生成过程中最大限度地减少用户的工作量,并在不直接考虑构象的情况下探索多种反应途径,从而实现高效率。

图片

图 1:TSDiff 概述。(来源:论文)

研究人员使用 Grambow 的数据集评估了 TSDiff 的性能。尽管简化了 2D 图的输入,但与依赖 3D 几何信息的现有方法相比,TSDiff 的准确率最高。

TSDiff 是一个随机生成模型,这意味着每次采样都会生成不同的几何形状。TSDiff 生成的不同几何形状对应于可以从相同的 2D 反应图构建的特定 TS 构象。例如,下图显示了与测试集中三个反应的特定构象和参考几何形状相对应的几个生成的几何形状。

图片

图 2:TSDiff 生成的过渡态 (TS) 构象示例。(来源:论文)

通过基于 DFT 的量子化学计算验证了 TSDiff 生成的多个 TS 构象的有效性。首先,对生成的几何形状进行鞍点优化,得到具有单一虚振动频率的 TS 几何形状。随后进行内禀反应坐标 (IRC) 计算,以验证 TS 几何形状是否对应于给定的图定义的反应。TSDiff 在此验证中取得了 90.6% 的极高成功率,显示了其作为初始 TS 几何猜测器的可靠性。

图片

图 3:TSDiff 生成的几何形状的可视化。(来源:论文)

基于这些结果,研究人员表示:「我们期望 TSDiff 能够极大地减轻 TS 探索过程中耗时的试错过程。我们还在鞍点发现了 2303 个新的 TS 构象,而不是使用 TSDiff 对测试集中的 1197 个反应进行八轮采样。其中一些对应于比参考文献更低的势垒高度,表明更有利的反应途径。」

图片

图 4:参考文献的势垒高度与 TSDiff 的势垒高度对比。(来源:论文)

未来潜力

TSDiff 的主要优点之一是它能够在不考虑反应物和产物的构象及其排列的情况下找到 TS。由于 TSDiff 不依赖于特定构象,因此它允许使用更通用的方法在图定义的反应中有效探索 TS。

TSDiff 能够有效捕获非反应坐标和不同反应坐标中可旋转键产生的 TS 构象。此外,TSDiff 也被证明是一个有效的初始 TS 猜测器,在后续 TS 优化过程中只需要少量的强制调用。总的来说,该研究结果证明了 TSDiff 作为高效可靠的 TS 探索的有前途的方法的潜力。

这些发现表明,随机扩散方法可以在平衡状态下准确地创建多种构象异构体,可扩展到 TS 探索。

然而,研究也有局限性,特别是它目前对有机反应的限制。尽管存在无机数据库,但缺乏大型无机反应数据库限制了机器学习方法在该领域的适用性。

随着未来数据的不断积累,研究人员表示 TSDiff 的用途将扩大到涵盖更广泛的化学反应,包括涉及无机物质的化学反应。

理论
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

推荐文章
暂无评论
暂无评论~