Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

预测配体-靶标对的结合亲和力,哈工大开发新SOTA药物表示模型

编辑 | 白菜叶

了解配体-靶标对的分子间相互作用是指导优化癌症药物研究的关键,这可以大大减轻湿实验室的负担。当前计算方法存在一些缺陷,限制了它们的实际应用。

在这里,哈尔滨工业大学的研究人员在此提出了 DrugMGR,这是一种深度多粒度药物表示模型,能够预测每个配体-靶标对的结合亲和力和区域。

通过对配体复杂的自然机制和蛋白质高级特征的多粒度表示学习,DrugMGR 几乎在所有数据集上都显著优于当前最先进的方法。并且,这是第一个同时使用图、卷积和基于注意力的信息分析蛋白质-配体复合物的模型。

该研究以「DrugMGR: a deep bioactive molecule binding method to identify compounds targeting proteins」为题,于 2024 年 4 月 1 日发布在《Bioinformatics》。

图片

药物开发对于疾病治疗至关重要,科学家们通过药物再利用可以快速寻找治疗方案,但传统实验方法成本高、周期长,限制了其应用。相比之下,采用计算方法识别高可信度的配体-靶标相互作用,能够显著缩小化合物候选范围,揭示蛋白质-配体复合物的结合机制。

过去十年,生物活性分子数据的激增,推动了深度学习人工智能在研究蛋白质-配体相互作用中的应用。

然而,现有深度学习方法存在两方面问题:一是多数模型对多粒度配体特征的捕获能力不足,未能充分整合原子环境、化学基因组序列等多元自然机制信息;二是许多方法忽视了对结合区域可解释性的构建,虽有少数借助注意力机制尝试推断结合位点,但关联生物特征不明确,不利于指导研究人员定位结合位点。

为了应对这些缺陷,哈尔滨工业大学的研究人员提出了 DrugMGR,这是一种基于深度多粒度表示的模型,可以预测配体与蛋白质靶标的结合亲和力和区域。

图片

图示:DrugMGR 方法概述。(来源:论文)

具体来说,该团队首先使用三个深度模块来全面编码配体的自然机制,即,用图注意力网络 (GAT) 来建模原子环境,用 CNN 来提取全局化学基因组序列,并使用分子Transformer (MT) 来捕获局部子结构的相互影响。

研究人员还设计了一个并行 VAE 模块,通过 CNN 块在概率编码器中学习蛋白质的高级特征,然后在概率解码器中重建目标结构。

然后,配体和蛋白质的编码表示被输入由注意力网络组成的成对相互作用映射模块,从而学习蛋白质-配体复合物的相互作用模式。联合成对相互作用表示由完全连接的网络解码,用于预测生物活性分子的结合亲和力。

图片

图示:BindingDB 数据集随机分割和冷启动分割的性能比较。(来源:论文)

对于结合区域预测,研究人员首先突出显示具有与配体结合潜力的重建蛋白质的结合位点,作为原始结合区域。随后,使用卷积运算将多粒度配体特征与蛋白质特征相乘。

接下来,他们将卷积结果记录为每个配体-靶标对的响应向量,并将响应向量中具有高值的区域标记为可视化结合区域。最后,研究人员利用这两个区域来指导最终预测的结合区域。

与 DrugBAN(一种用于简单识别药物和靶标之间相互作用的二元分类器)相比,该团队提出的 DrugMGR 可以进一步了解蛋白质-配体复合物的综合结合信息(结合亲和力和结合区域),这在生物活性分子结合的实际应用中发挥着核心作用。

图片

图示:已识别药物 Talazoparib 和靶向 PARP1 在三个预测区域的可视化。(来源:论文)

针对具有高度侵袭性、预后不良且缺乏有效靶向疗法的三阴性乳腺癌(TNBC),该团队利用 DrugMGR 模型从 DrugBank 数据库中识别针对 PARP1 的潜在抑制剂和化疗药物。

筛选出的前 10 个候选化合物经 GeneCards 和 PDB 系统验证,并通过可视化 PARP1 与 Talazoparib(PDB ID: 4PJT)的结合区域,确认模型的有效性。

结果显示,DrugMGR 准确预测了结合位点,表现优异,有望成为针对 PARP1 虚拟筛选的有力工具,助力生物医药学家筛选更优的抗肿瘤药物组合。

论文链接:https://academic.oup.com/bioinformatics/article/40/4/btae176/7638803

理论药物表示模型DrugMGR哈工大深度学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

推荐文章
暂无评论
暂无评论~