Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

准确预测药物-靶点相互作用,江南大学提出深度学习融合GNN新方法MINDG

图片

编辑 | 紫罗

药物-靶点相互作用(DTI)预测在药物发现中发挥着重要作用。尽管药物靶点预测的智能计算方法受到了广泛关注,并取得了许多进展,但仍然是一项具有挑战性的任务,需要进一步的研究。

为了解决上述挑战,江南大学研究团队提出了一种集成深度学习和图学习的多视图集成学习网络(MINDG)。

MINDG 结合图学习和深度学习来提取药物和蛋白质的内在结构信息,以及它们之间的外在关系信息。因此,与之前的方法相比,MINDG 提高了模型预测的性能。

相关研究以《MINDG: a drug–target interaction prediction method based on an integrated learning algorithm》为题,于 2024 年 3 月 14 日发布在《Bioinformatics》上。

图片

GitHub 地址:https://github.com/jnuaipr/MINDG
论文链接:https://doi.org/10.1093/bioinformatics/btae147

四种 DTI 预测方法

DTI 预测指预测给定的药物分子是否会与特定靶点结合,从而发挥靶向治疗作用。

目前 DTI 预测方法主要有四类:基于相似性的方法、机器学习方法、深度学习方法和图学习方法。

基于相似性的方法,例如,阿卜杜拉国王科技大学 (KAUST) Thafar 团队提出的 DTi2Vec 方法可以预测药物和蛋白质之间的联系,而无需挖掘药物和蛋白质的额外内部信息。

机器学习方法利用蛋白质结构和序列信息来预测目标。例如,使用化学结构、药物质谱和氨基酸序列来表示蛋白质以预测药物-靶标相互作用。

深度学习方法将特征、模型和生物信息学网络与其他方法相结合,以获得更好的预测结果。

目前,在 DTI 预测的可用方法中,基于图卷积网络(GCN)的方法最有前景。

药物靶标预测的智能计算方法受到了广泛关注并取得了重大进展。然而,这仍然是一项具有挑战性的任务。

主要挑战表现为:(i)大多数基于图神经网络(GNN)的方法只考虑图中一阶相邻节点(药物和靶标)的信息,而没有从高阶相邻节点中学习更深入、更丰富的结构特征。(ii)现有方法没有同时考虑药物和靶标的序列和结构特征,各方法相互独立,无法结合序列和结构特征的优点来提高交互式学习效果。

MINDG 提高了 DIT 预测性能

为了应对这一挑战,该研究提出了一种集成深度学习和图学习的多视图集成学习网络(MINDG)。

图片

图示:MINDG 模型的总体架构。(来源:论文)

该网络由以下部分组成:(i)采用混合深度网络(HDN)提取药物和靶点的序列特征,(ii)提出了高阶图注意卷积网络以更好地提取和捕获结构特征,(iii)使用多视图自适应集成决策模块对上述两种网络的初始预测结果进行改进和补充,提高预测性能。

图片

图示:混合深度网络(HDN)的结构图。(来源:论文)

该研究的贡献主要体现在三个方面:

  • 设计药物和蛋白质靶标图学习的注意力机制,并提出高阶图注意力卷积网络(HOAGCN)。

  • 融合消息传递神经网络 (MPNN) 和卷积神经网络(CNN)方法来增强药物和蛋白质目标序列的结构特征学习;。

  • 提出集成深度学习和图学习的多视图集成学习网络(MINDG)。

图片

图示:高阶图注意力卷积网络(HOAGCN)的结构。(来源:论文)

实验研究

为了验证 MINDG 的有效性,在以下方面进行了实验分析:(i)与当前性能较好的药物-靶点相互作用预测方法的性能比较;(ii) 进行了消融实验;(iii) 进行了预测结果的应用研究。

在两个数据集上(BindingDB 和 DAVIS)评估 MINDG,表明与最先进的基线相比,它提高了 DTI 预测性能。MINDG 结合了图神经网络深度学习方法的优点,比单独使用任何一种方法都有更好的性能。

图片

图片

接下来,进行了消融分析,研究了多视图学习对预测性能的影响。

图片

从实验结果中可以看出,与 View1、View2 和 MAIDM 相比,MINDG 改进了所有数据集的指标。无论使用哪种单独视图,相应模型的预测能力都弱于基于两种视图协同的预测性能。这也表明多个视图具有互补作用,通过它们的协同作用,可以更充分地利用高阶图注意力网络和混合深度网络学习到的不同视图的深层特征,从而提高整体模型的性能。

最后,利用 MINDG 进行抗病毒药物再利用的探索。使用由清华大学 Gao Yan 等人解析的 SARS-CoV-2 3CL 蛋白酶序列输入模型,预测结合亲和力值排名前 10 的药物。

图片

在 MINDG 生成的候选药列表中药物疗效的实际应用,有助于证明 MINDG 预测结果的信息价值。

不足和改进方向

MINDG 与一些最先进的方法进行了各种比较,结果表明所提出的方法性能更佳。

然而,MINDG 只是以顺序的方式学习药物和蛋白质的内在结构信息,并没有充分利用所有可用的内在结构信息。

未来,图学习方法可能会被用来学习药物和蛋白质的内在结构。此外,由于研究有限,研究人员还没有进行湿实验阶段。计划将来进行进一步的湿实验,包括药物 panel 测试。

【推荐阅读】

理论
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~