Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

将分子对接视为一个生成建模问题,显著优于传统对接和深度学习方法

编辑 | 萝卜皮

预测小分子配体与蛋白质的结合结构——一项称为分子对接的任务——对药物设计至关重要。与传统的基于搜索的方法相比,最近将对接视为回归问题的深度学习方法减少了运行时间,但尚未显着提高准确性。

相反,麻省理工学院(MIT)的研究团队将分子对接视为一个生成建模问题,并开发了 DiffDock,这是一种在配体位姿的非欧几里得流形上的扩散生成模型。为此,研究人员将这个流形映射到对接所涉及的自由度(平移、旋转和扭转)的乘积空间,并在该空间上开发一个有效的扩散过程。

根据经验,DiffDock 在 PDBBind 上获得了 38% 的 top-1 成功率(RMSD<2Å),显著优于传统对接(23%)和深度学习(20%)方法。此外,DiffDock 具有快速的推理时间并提供具有高选择性准确性的置信度估计。

该研究以「DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking」为题,于 2022 年 10 月 4 日发布在 arXiv 预印平台。

蛋白质的生物学功能可以通过与其结合的小分子配体(如药物)来调节。因此,计算药物设计中的一项关键任务是分子对接——预测配体与靶蛋白结合时的位置、方向和构象——从中可以推断出配体的作用(如果有的话)。传统的对接方法依赖于估计所提出的结构或姿势的正确性的评分函数,以及搜索评分函数的全局最大值的优化算法。然而,由于搜索空间巨大且评分功能的环境崎岖不平,这些方法往往过于缓慢且不准确,尤其是对于高通量工作流程。

最近的工作已经开发出深度学习模型来一次性预测绑定姿势,将对接视为回归问题。虽然这些方法比传统的基于搜索的方法要快得多,但它们尚未显示出准确性的显著提高。MIT 的研究人员认为这可能是因为基于回归的范式与分子对接的目标不完全对应,这反映在标准准确度指标类似于预测模型下数据的可能性而不是回归损失的事实中。因此,研究人员将分子对接视为一个生成建模问题——给定配体和靶蛋白结构,学习配体位姿的分布。

图示:DIFFDOCK 概述。(来源:论文)

因此,他们开发了 DiffDock,这是一种在配体位姿空间上用于分子对接的扩散生成模型(DGM)。研究人员定义了一个关于对接所涉及的自由度的扩散过程:配体相对于蛋白质的位置(定位结合口袋)、它在口袋中的方向以及描述其构象的扭转角。

DiffDock 通过运行学习(反向)扩散过程来采样姿势,该过程迭代地将配体姿势上的无信息、嘈杂的先验分布转换为学习模型分布。直观地讲,这个过程可以看作是通过更新它们的平移、旋转和扭转角来逐步细化随机姿势。

虽然 DGM 已应用于分子机器学习中的其他问题,但现有方法不适合分子对接,其中配体位姿的空间是 (m + 6) 维子流形 M ⊂ R^3n,其中 n 和 m 是, 分别为原子数和扭转角。为了开发 DiffDock,该团队认识到对接自由度将 M 定义为可通过一组允许的配体姿势变换访问的姿势空间。研究人员使用这个想法将 M 中的元素映射到与这些转换相对应的组的产品空间,在那里可以有效地开发和训练 DGM。

由于对接模型的应用通常只需要固定数量的预测和对这些预测的置信度得分,因此他们训练了一个置信度模型来为从 DGM 采样的姿势提供置信度估计,并挑选出最有可能的样本。这个两步过程可以看作是蛮力搜索和一次性预测之间的中间方法:保留了考虑和比较多个姿势的能力,而不会产生高维搜索的困难。

根据经验,在标准盲对接基准 PDBBind 上,DiffDock 实现了 38% 的 top-1 预测,配体均方根距离(RMSD)低于 2Å,几乎是之前最先进的深度学习模型的性能的两倍(20%)。DiffDock 甚至在执行最先进的基于搜索的方法 (23%) 方面都表现出色,同时在 GPU 上的速度仍然快 3 到 12 倍。此外,它提供了准确的预测置信度分数,在之前未见过的复合物中最有信心的三分之一获得了 83% RMSD<2Å。

总而言之,这项研究的主要贡献是:

1、将分子对接任务定义为一个生成问题,并强调以前的深度学习方法存在的问题。

2、制定了一种新的配体位姿扩散过程,对应于分子对接所涉及的自由度。

3、在 PDBBind 盲对接基准上实现了新的最先进的 38% top-1 预测,RMSD<2Å,大大超过了之前基于搜索的最佳方法 (23%) 和深度学习方法 (20%)。

该团队提出的 DiffDock 作为一种针对分子对接任务量身定制的扩散生成模型,代表了从以前使用基于回归的框架的深度学习方法到更符合分子对接目标的生成建模方法的范式转变。为了生成快速准确的生成模型,研究人员设计了一个流形上的扩散过程,通过跨越流形的配体位姿变换来描述任务的主要自由度。

根据经验,DiffDock 在 PDBBind 上的性能大大优于最先进的技术,具有快速的推理时间,并提供具有高选择性精度的置信度估计。因此,DiffDock 可以为许多现有的现实世界管道提供巨大的价值,并为如何最好地集成下游任务开辟新的研究途径,例如亲和力预测,进入框架并将类似的想法应用于蛋白质-蛋白质和蛋白质-核酸对接。

论文链接:https://paperswithcode.com/paper/diffdock-diffusion-steps-twists-and-turns-for

理论蛋白质推理深度学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

推荐文章
暂无评论
暂无评论~