Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

具有条件生成神经网络的3D分子结构逆设计

编辑 | 萝卜皮

具有所需特性的分子的合理设计是化学中长期存在的挑战。生成神经网络已经成为一种从学习分布中采样新分子的强大方法。

在这里,柏林工业大学的研究人员提出了一个条件生成神经网络,用于具有特定化学和结构特性的 3d 分子结构。这种方法与化学键合无关,并且能够从条件分布中对新分子进行有针对性的采样,即使在参考计算很少的领域也是如此。

研究人员通过生成具有特定基序或组成的分子,发现特别稳定的分子,并联合针对训练方案之外的多种电子特性,证明了该方法在逆向设计中的实用性。

该研究以「Inverse design of 3d molecular structures with conditional generative neural networks」,于 2022 年 2 月 21 日发布在《Nature Communications》。

图片

在探索化学空间时,依赖某些抽象表示最终是一个限制因素

识别具有特定特性的化合物是许多应用中的一项关键任务,从药物设计到催化再到能源材料。由于对广阔的化合物空间进行详尽的探索是不可行的,因此这些领域的进展可以从逆向设计方法中受益匪浅。

近年来,机器学习(ML)已被用于加速化合物空间的探索。大量的方法以低计算成本准确地预测 3d 结构的化学性质和势能面。在这里,训练 ML 模型所需的参考计算数量取决于要探索的域的大小。因此,简单的探索方案可能仍然需要大量的电子结构计算。取而代之的是,化学空间必须以引导方式导航,并采用快速准确的方法来提取有前途的分子。

这产生了逆分子设计的想法,其中结构-性质关系被颠倒了。在这里,挑战是直接构建与给定属性集相对应的分子结构。生成式 ML 模型最近作为一种强大的、数据驱动的逆向设计方法而受到关注,因为它们能够从学习的分子配置分布中进行采样。通过适当地限制分布,它们允许获得具有所需特征的候选结构集以进行进一步评估。

这些方法通常将分子表示为图形或 SMILES 字符串,它们缺乏有关分子三维结构的信息。因此,相同的分子图可以表示其各自性质不同的各种空间构象,例如,由于分子内相互作用或结构基序的不同方向。

除此之外,基于连接的表示在键合不明确的化学系统中存在问题,例如在过渡金属配合物、共轭系统或金属中。在探索化学空间时,依赖这些抽象表示最终是一个限制因素。

事先了解官能团和目标特性之间的关系,会限制模型发挥潜力

最近,已经提出了能够对 3d 分子配置进行采样的生成模型。这包括专门设计的方法,将给定的分子图转换为 3d 构象,从粗粒度结构映射到细粒度结构,对给定系统的无偏平衡配置进行采样,或专注于蛋白质折叠。

相比之下,其他模型旨在直接从具有任意成分的 3d 分子的分布中采样,使其适用于一般的逆向设计设置。这些模型需要偏向于具有感兴趣属性的结构,例如,使用强化学习、对有偏差的数据集进行微调或其他启发式方法。

该团队之前提出了 G-SchNet,这是一种自回归深度神经网络,它通过在欧几里得空间中一个接一个地放置一个原子来生成各种小的有机分子。它已被应用于 3D-Scaffold 框架,以围绕与感兴趣的特性相关的官能团构建分子,以发现新的候选药物。

这种方法需要事先了解官能团和目标特性之间的关系,并且可能会通过将采样限制在非常特定的分子上来阻止模型发挥其潜力。G-SchNet 通过微调包含所有具有小 HOMO-LUMO 间隙的分子的训练数据集的一部分而产生偏差。为此,需要在目标空间中有足够数量的训练样例。然而,最有趣的探索区域通常是那些参考计算稀疏的区域。

图片

图示:使用 cG-SchNet 进行分子生成。(来源:论文)

一种用于分子逆向设计的条件生成神经网络

在最新的研究中,该团队提出了条件 G-SchNet(cG-SchNet),这是一种用于分子逆向设计的条件生成神经网络。基于 G-SchNet,该模型根据结构或化学性质学习条件分布,从而使研究人员能够对相应的 3d 分子结构进行采样。该架构旨在生成任意大小的分子,并且不需要指定目标成分。

因此,它了解分子的组成与其物理特性之间的关系,以便对表现出给定目标特性的候选样本进行采样,例如,在针对小极化率时更喜欢较小的结构。通过调整训练目标或数据,以前提出的方法一次偏向于一组特定的目标属性值。

相反,该团队的条件方法允许在训练完成后搜索具有任何所需目标属性值集的分子。它能够联合针对多个属性,而无需重新训练或以其他方式间接限制采样过程。这为模型利用训练数据的全部信息提供了基础,从而提高了泛化能力和数据效率。

研究人员证明 cG-SchNet 能够探索无条件模型难以访问的人口稀少区域。为此,他们对各种调节目标进行了广泛的实验,包括化学性质、原子组成和分子指纹。通过这种方式,他们生成了具有预定义结构基序的新分子、具有特定化学性质的给定组成的异构体,以及共同优化 HOMO-LUMO 间隙和能量的新构型。这表明该模型能够灵活、有指导地探索化合物空间。

图片

图示:带有输入和输出的 cG-SchNet 架构的示意图。(来源:论文)

cG-SchNet 有哪些优势与不足

cG-SchNet 能够以多种结构和化学特性的任意组合为条件,有针对性地发现 3d 分子结构。神经网络通过设计捕获分子结构的全局和局部对称性,使其能够学习化学性质和 3d 结构之间的复杂关系。这使得泛化到看不见的条件和结构成为可能,因为研究人员已经在一系列实验中进行了彻底的评估,他们的目标是训练数据中不包含的属性值。

与以前的方法相比,该模型不需要针对特定目标的偏置程序。相反,显式条件使 cG-SchNet 能够从所有可用的参考计算中有效地学习。可以同时针对多个属性的期望值从特定条件分布中采样。通过这种方式,cG-SchNet 生成了新的 3d 候选分子,这些分子具有高概率表现出目标特性,因此非常适合使用 ML 力场进行进一步的过滤和评估。

图片

图示:使用 cG-SchNet 有针对性地探索化学空间。(来源:论文)

需要进一步的工作将 cG-SchNet 架构应用于探索更大的系统和更多样化的原子类型。尽管已经在 3D-Scaffold 框架中对具有 50 多个原子的类药物分子进行了无条件 G-SchNet 训练,但仍需要进行调整以确保材料的可扩展性。

在这项研究中,研究人员使用所有前面的原子来预测类型,并重建下一个原子的位置分布。在这里,需要引入一个截止值或其他启发式方法来限制所考虑的原子数量,以及对远程相互作用的校正。虽然 QM9 很好地代表了这项工作中考虑的小有机化合物,但该模型可能会受益于使用代表性构建块(例如「amons」或其他碎片方法)增强训练数据。

在处理难以获得参考数据的较大分子时,这一点变得越来越重要。未来工作的另一个方向是将 cG-SchNet 与不同领域的已建立方法进行扩展比较,例如,用于发现药物或材料,以确定有希望的应用和可能的缺点。

此外,需要额外的适应来探索具有周期性边界条件的系统。在不能同时满足所有目标特性的情况下,找到合适的分子变得更加困难,如果不是不可能的话。因此,另一个重要的扩展是明确定义多个条件之间的权衡或沿帕累托前沿进行采样。

图片

图示:发现一种看不见的组合物的低能异构体。(来源:论文)

研究人员已应用 cG-SchNet 对特别稳定的低能 C7O2H10 异构体进行采样。在这个过程中,他们发现了 QM9 数据库中不存在的分子和基序,例如带有羧酸基团的异构体。此外,研究人员从一个仅在训练数据中稀疏表示的域中采样了 800 多个 HOMO-LUMO 间隙小于 4.5 eV 的低能分子。

图片

图示:发现具有小 HOMO-LUMO 间隙的低能结构。(来源:论文)

尽管通过详尽的分子图采样和随后的 DFT 评估来探索这种小分子在计算上是可行的,但该模型通过提供合理的候选结构大大加快了这一过程。因此,cG-SchNet 还能够对化学数据库进行数据高效、系统的改进,考虑到计算成本和电子结构计算的不利规模,这尤其有价值。

这为 ML 驱动的、有针对性的化合物空间探索铺平了道路,并为进一步开发更大、更通用的原子系统的生成模型开辟了道路。

论文链接:https://www.nature.com/articles/s41467-022-28526-y

理论
暂无评论
暂无评论~