Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

优于SOTA,腾讯AI Lab开发双重扩散模型,实现靶标配体3D分子生成和先导化合物优化

编辑 | 萝卜皮

基于结构的生成化学,通过探索广阔的化学空间来设计对靶标具有高结合亲和力的配体,在计算机辅助药物发现中至关重要。

然而,传统的计算机方法受到计算效率低下的限制,机器学习方法则因自回归采样而面临瓶颈。

为了解决这些问题,腾讯 AI lab、香港城市大学、锐格医药(Regor Therapeutics Group)的研究人员开发了一种条件深度生成模型 PMDM,用于生成适合特定靶标的 3D 分子。

PMDM 由具有局部和全局分子动力学的条件等变扩散模型组成,使 PMDM 能够考虑条件蛋白质信息从而有效地生成分子。综合实验表明,PMDM 在多个评估指标上均优于基线模型。

为了评估 PMDM 在真实药物设计场景中的应用,研究人员分别对 SARS-CoV-2 主要蛋白酶(Mpro)和细胞周期蛋白依赖性激酶 2 (CDK2) 进行先导化合物优化。该团队在湿实验室里合成了选定的先导优化分子,并对其进行评估,结果显示出了更强的 CDK2 体外活性。

该研究以「A dual diffusion model enables 3D molecule generation and lead optimization based on target pockets」为题于 2024 年 3 月 26 日发布在《Nature Communications》。

图片

基于结构的药物发现(SBDD)在现代药物开发和催化中发挥着至关重要的作用。给定特定的靶蛋白,其目的是识别有效结合特定靶蛋白的合适药物分子。传统的计算机方法(例如虚拟筛选)通过迭代(1)将现有数据库中的分子放入蛋白质袋腔中以及(2)根据实验论文中的能量估计、毒性等标准过滤分子来发现药物。

然而,这些方法存在两个局限性。首先,在巨大的化学空间(范围从 10^60 到 100^100,取决于所需分子的大小)中进行天真的详尽搜索成本高昂。其次,该工作流程受到历史知识的限制,因此无法探索和生成现有数据库中尚未记录的分子结构。

深度学习技术推动了药物分子结构学习和化学空间探索,但现有方法在处理三维(3D)空间信息和生成高亲和力分子方面存在局限。新一代生成模型致力于在蛋白质口袋内实现 3D 分子采样,从而提高分子设计的精确性和效率。尽管如此,准确捕捉分子细节、高效探索化学空间和保持全局信息仍是当前研究的挑战。

受到计算机视觉任务中扩散模型的启发,腾讯 AI lab、香港城市大学、锐格医药的研究团队提出了一种名为 Pocket based Molecular Diffusion Model(PMDM)的一次性生成框架。它能够通过整合扩散框架,用一次性方式生成以特定靶标蛋白为条件的 3D 小分子配体。

图片

图示:PMDM 框架概述。(来源:论文)

具体来说,具有固定口袋信息的分子原子被视为 3D 点云,并在前向过程中扩散,这类似于非平衡热力学中的现象。PMDM 的目标是学习如何逆向此过程来对条件数据分布进行建模。

一旦口袋信息固定,研究人员便能够用模型有效地生成具有高结合亲和力的精确分子。然而,如果研究人员将 3D 分子几何形状表示为 3D 点云,则 3D 点云的常规方法不能涉及化学键信息等边缘信息。因此,该团队定义了双重扩散策略来构建两种虚拟边缘。

详细地说,原子间距离低于特定阈值的原子对通过共价局部边缘键合,因为当两个原子彼此足够接近时,化学键可以主导原子间力,而全局边缘连接到其余的原子对以模拟范德华力。此外,研究人员设计了一个服从分子几何系统的平移、旋转、反射和排列等变的等变动态核。

合成 CrossDocked 数据集上的实验表明,PMDM 可以生成类药物、可合成、多样化的分子,对特定蛋白质具有高结合亲和力,并在多个评估指标上优于最先进的(SOTA)模型。

图片

图示:分别由 AR-SBDD、DiffSBDD 和 PMDM 生成的示例分子与测试集的示例分子的比较。(来源:论文)

PMDM 的复杂性和采样时间要少得多,与 SOTA 方法相比,PMDM 实现了更好的或具有竞争力的性能。生成的分子的化学空间分析证明了生成的分子结构与 2D 和 3D 空间中的参考分子相比的合理性。此外,PMDM 具有生成大量生物活性分子的能力,这些分子对训练集中未包含的靶标蛋白具有高结合亲和力。

研究人员利用 PMDM 分别对 SARS-CoV-2 主要蛋白酶(Mpro)和细胞周期蛋白依赖性激酶 2 (CDK2) 进行先导化合物生成和优化。先导生成结果表明 PMDM 可以生成包含参考分子验证的结构模式的分子。

图片

图示:SARS-CoV-2 主要蛋白酶 (Mpro) 的先导生成案例。(来源:论文)

通过提出给定特定片段的采样算法和用于链接器生成的采样算法,该模型可以应用于先导优化场景,包括支架跳跃和生成,而无需在特定数据集上重新训练。

该团队合成了选定的先导优化分子,并评估了其针对 CDK1 和 CDK2 的体外活性。体外结果表明所有分子都表现出改善的 CDK2 活性和适当的 CDK1 选择性。研究人员认为 PMDM 可以推进针对特定蛋白质的从头药物优化,并加速未来的药物开发研究。

兰大博士评价:有创新点,但也有局限性

「该研究是一个基于扩散模型的靶标口袋 3D 分子生成和先导化合物工作,主要创新点在于同时考虑了 local 和 global 的信息。这项研究能够以一次性方式生成以特定靶标蛋白为条件的 3D 小分子配体,分子生成性能相对优秀,并显著降低了计算量和时间消耗。」

「除此之外,该工作还应用到了真实药物设计场景(Mpro 蛋白先导化合物优化),证明了其实际应用可行性和算法有效性。」兰州大学的博士生黎育权在看到论文后评论道,他的导师是澳门理工大学应用科学学院教授、人工智能药物发现中心学术带头人姚小军。

黎育权说:「但这项工作也存在一定局限性。一方面,该方法需要更多的解释和透明度。比如说,深入到算法的运行时张量分析,分析双扩散策略是如何起关键作用的。另一方面,该方法需要更多的案例验证。算法创新是否能真的落地到药物发现并当中,实现论文中所述的多个方面作用,并稳定地发挥出价值。我认为仅凭论文中的少量是不够验证的。期待后续更多的案例验证。」

论文链接:https://www.nature.com/articles/s41467-024-46569-1

理论
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

结构学习技术

结构化预测是监督学习,分类和回归的标准范式的一种推广。 所有这些可以被认为是找到一个能最大限度减少训练集损失的函数。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

张量分析技术

量分析是微分几何中研究张量场的微分运算的一个分支。张量分析是用共变微分表示各种几何量和微分算子性质的运算方法,可以看作是微分流形上的“微分法”,是研究流形上的几何和分析的一种重要工具。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

深度生成模型技术

深度生成模型基本都是以某种方式寻找并表达(多变量)数据的概率分布。有基于无向图模型(马尔可夫模型)的联合概率分布模型,另外就是基于有向图模型(贝叶斯模型)的条件概率分布。前者的模型是构建隐含层(latent)和显示层(visible)的联合概率,然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布,也就是给定一个随机采样的隐含层,模型可以生成数据。 生成模型的训练是一个非监督过程,输入只需要无标签的数据。除了可以生成数据,还可以用于半监督的学习。比如,先利用大量无标签数据训练好模型,然后利用模型去提取数据特征(即从数据层到隐含层的编码过程),之后用数据特征结合标签去训练最终的网络模型。另一种方法是利用生成模型网络中的参数去初始化监督训练中的网络模型,当然,两个模型需要结构一致。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~