编辑 | 萝卜皮
从分子图中预测分子的 3D 构象异构体在化学信息学和药物发现领域发挥着关键作用。现有的生成性模型有几个缺点,包括缺乏对重要分子几何元素(例如扭转角)的建模,分离的优化阶段容易累积误差,以及需要基于近似经典力场或计算昂贵的方法(如在每个几何体上进行近似量子力学计算的亚动力学)进行结构微调。
来自麻省理工学院的研究人员提出了 GeoMol —— 一种端到端、非自回归和 SE (3) - 不变的机器学习方法,用于生成低能量分子 3D 构象异构体的分布。
利用消息传递神经网络 (MPNN) 的强大功能来捕获局部和全局图信息,预测局部原子 3D 结构和扭转角,避免几何自由度的不必要的过度参数化(例如每个非末端键一个角度)。这种局部预测对于训练损失计算以及完整的确定性一致性组件(在测试时)都足够了。
研究人员设计了一个基于非对抗性最优传输的损失函数来促进多样化的构象异构体生成。GeoMol 主要优于流行的开源、商业或最先进的机器学习 (ML) 模型,同时实现了显着的加速。
该研究以「GeoMol: Torsional Geometric Generation of Molecular 3D Conformer Ensembles」为题,于 2021 年 6 月 8 日发布在 arXiv 预印平台。
在寻找有效的新药的过程中,科学家们正在寻找可以附着在致病蛋白质上并改变其功能的类药物分子。他们知道分子的 3D 形状以了解它如何附着在蛋白质的特定表面上至关重要。
但是单个分子可以以数千种不同的方式折叠,因此通过实验解决这个难题是一个耗时且昂贵的过程,就像在分子大海捞针一样。
麻省理工学院的研究人员使用机器学习来简化这项复杂的任务。他们创建了一个深度学习模型,该模型仅基于分子结构的二维图形预测分子的三维形状。分子通常用小图表示。
从输入的分子图中生成低能三维构象集合。
他们的系统 GeoMol 只需几秒钟就可以处理分子,其性能优于其他机器学习模型,包括一些商业方法。该论文的作者 Octavian Eugen Ganea 说,通过缩小需要在实验室实验中测试的分子数量,GeoMol 可以帮助制药公司加快药物发现过程。
GeoMol 模型概述。
「当你思考这些结构如何在3D空间中移动时,实际上只有分子的某些部分是灵活的,这些可旋转的键。我们工作的关键创新之一是,我们像化学工程师一样考虑建模构象的灵活性。这真的是试图预测结构中可旋转键的整体分布。」该研究的重要参与者 Lagnajit Pattanaik 说。
绘制分子图
在分子图中,分子的单个原子表示为节点,连接它们的化学键表示为边。
GeoMol利用了一种最新的深度学习工具,称为消息传递神经网络,专门设计用于对图形进行操作。研究人员采用了一种信息传递神经网络来预测分子几何的特定元素。
给定一个分子图,GeoMol 最初预测了原子间化学键的长度和这些单个键的角度。原子排列和连接方式决定了哪些键可以旋转。
然后,GeoMol 单独预测每个原子的局部邻域的结构,通过计算扭转角将其对齐来组装相邻的可旋转键对。扭转角决定了三个连接段的运动,在这种情况下,三个连接四个原子的化学键。
「在这里,可旋转键可以获取大量的可能值。因此,使用这些信息传递神经网络,我们可以捕获影响该预测的许多本地和全球环境。可旋转键可以获取多个值,我们希望我们的预测能够反映潜在分布。」Pattanaik 说。
克服现有障碍
预测分子三维结构的一个主要挑战是建立手性模型。手性分子不能像一双手那样叠加在它的镜像上(无论你如何旋转你的手,它们的特征都不可能完全对齐)。如果一个分子是手性的,它的镜像就不会以同样的方式与环境相互作用。
手性分子。
这可能导致药物与蛋白质不正确地相互作用,从而产生危险的副作用。Ganea 说,目前的机器学习方法通常涉及一个漫长而复杂的优化过程,以确保手性分子被正确识别。
由于 Gemool 单独确定每个键的 3D 结构,因此它在预测过程中明确定义了手性,消除了事后优化的需要。
在完成这些预测之后,GeoMol 为分子输出了一组可能的3D结构。
Ganea 说:「我们现在可以做的是将我们的模型与预测这种附着到特定蛋白质表面的模型进行端到端的连接。我们的模型不是一个单独的管道。它很容易与其他深度学习模型集成。」
「超快」模型
研究人员使用分子数据集模型进行了测试。与机器学习模型和其他方法相比,他们评估了模型能够捕捉到多少可能的三维结构。在几乎所有情况下,GeoMol 在所有测试指标上都优于其他模型。
与其他计算模型比较。
「我们发现我们的模型速度非常快,这真的很令人兴奋。重要的是,当你添加更多的可旋转键时,你期望这些算法会显著减慢。但我们并没有真正看到这一点。速度与可旋转键的数量成正比,这很有可能用于后续使用这些类型的模型,特别是在试图快速预测这些蛋白质内部3D结构的应用中。」Pattanaik 说。
未来,研究人员希望将 GeoMol 应用于高通量虚拟筛选领域,利用该模型确定与特定蛋白质相互作用的小分子结构。他们还希望通过额外的训练数据不断完善 GeoMol,以便它能够更有效地预测具有许多柔性键的长分子的结构。
Relay Therapeutics 计算高级副总裁 Pat Walters 评价说:「构象分析是计算机辅助药物设计中许多任务的关键组成部分,也是推进药物发现中机器学习方法的重要组成部分。」
论文链接:https://arxiv.org/abs/2106.07802
相关报道:https://phys.org/news/2021-12-deep-rapidly-3d-drug-like-molecules.html