药物-靶标相互作用 (DTI) 预测在药物发现和重新定位中起着重要作用。然而,大多数用于识别相关 DTI 的计算方法都没有考虑药物或靶标之间最近邻关系的不变性。换句话说,他们没有考虑表示学习过程中节点之间拓扑关系的不变性。这可能会限制 DTI 预测方法的性能。
中国科学技术大学的研究人员提出了一种新的基于图卷积自编码器的模型 SDGAE,用于预测 DTI。由于图卷积网络无法处理网络中的孤立节点,因此应用预处理步骤来减少异构网络中孤立节点的数量,并促进图卷积网络的有效利用。通过在表示学习期间保持图结构,嵌入空间中节点之间的最近邻关系保持尽可能接近原始空间。
该研究以「Drug-target interaction prediction based on spatial consistency constraint and graph convolutional autoencoder」为题,于 2023 年 4 月 17 日发布在《BMC Bioinformatics》。
药物-靶标相互作用预测在药物发现和重新定位中起着重要作用。许多关于药物副作用、多药理学和耐药性的研究都依赖于 DTI 预测。然而,用于鉴定 DTI 的生化实验可能既昂贵又耗时。或者,计算方法可以有效地识别潜在的具有临床价值的 DTI,同时显著降低成本。
早期传统的计算方法可以分为两类,一类基于分子对接,另一类基于配体。然而,当目标蛋白的三维结构未知时,基于分子对接的方法的性能受到限制。此外,当目标只有少量已知的结合配体时,基于配体的方法表现不佳。在过去十年中,人们致力于开发基于深度学习的方法来预测潜在的 DTI。
基于不同的输入特征,基于深度学习的 DTI 预测方法可大致分为三个分支:基于配体、结构和关系的方法。特别是,基于配体的方法利用测试目标的配体信息,并使用深度学习方法来简化虚拟筛选步骤。反过来,基于结构的方法使用来自目标蛋白质及其配体的信息。
异构数据源为新型 DTI 的预测提供了多样化的信息和多视角。基于关系的方法使用异构网络来整合来自药物、蛋白质、疾病、副作用等多源生物数据的信息。然而,这类方法中的大多数在表示学习期间不保持不变的邻居关系。节点之间的最近邻关系可能会在嵌入空间中移动。这些变化可能会对预测结果产生负面影响。
同时,大多数这些当前方法无法处理网络中不存在的节点。实际上,交互网络中存在大量以孤立节点表示的未知药物和靶标。因此,如何处理孤立节点是实现更准确的DTI预测所必须克服的挑战。
图示:SDGAE流程图。(来源:论文)
中国科学技术大学的研究人员提出了 SDGAE,一种基于图卷积自编码器的 DTI 预测方法。SDGAE 首先使用 Weighted K Nearest Known Neighbors (WKNKN) 算法来加密 DTI 矩阵(DDM)并减少异构网络中孤立节点的数量。在编码过程中,研究人员在模型中添加了空间一致性约束(SCC),确保嵌入空间中节点之间的拓扑关系尽可能接近原始空间。最后,基于集成学习构建了 LightGBM 模型用于 DTI 预测。
图示:异构网络的多重相似性融合与构建。(来源:论文)
经过测试,SDGAE 的 AUC 和 AUPR 两项指标均高于其他比较方法。特别是 AUPR 大大高于其他方法。研究人员推测 SDGAE 比其他方法表现更好的原因是它集成了这些方法的优点并减轻了这些方法的缺点。SDGAE 可以从多个角度衡量相似度,充分利用了来自多个数据源的信息。此外,SDGAE 中的 LightGBM 充分利用了负样本中的信息,并通过构建多个决策树来缓解类不平衡问题。SDGAE 增密了邻接矩阵来处理异构网络中的孤立节点,充分发挥了 GCN 的有效性。
此外,SCC操作保持节点间的最近邻关系不变,有利于分类器的后续训练。作为其增强功效的结果,SDGAE 发现了比其他方法更多的潜在 DTI,这为更快地发现潜在药物靶标铺平了道路。
与其他研究相比,该团队更加关注表示学习过程中节点的最近邻关系发生的变化。在没有 SCC 的情况下,原始空间中彼此不靠近的节点,在表示学习后可能会在嵌入空间中彼此靠近。研究人员认为,一个重要的原因是还存在噪声,同时有一些相互作用尚未被发现。SDGAE 旨在减少这些虚假标签的干扰。在表示学习过程中有意保持最近邻不变,在一定程度上有利于 DTI 预测。
尽管 SDGAE 在这里仅用于预测缺失的 DTI,但 SDGAE 是一种通用方法。如果定义了节点之间的相似性,SDGAE可以很容易地应用于其他链接预测问题,例如 microRNA-小分子、药物-副作用、基因-疾病和 microRNA-疾病关联的预测。
此外,2019冠状病毒病(COVID-19)已成为全球重大健康问题,至今仍在困扰着全人类。然而,为 COVID-19 患者研究和设计新药可能需要花费大量时间。药物再利用可能是一种有效的替代方法。研究人员将 SDGAE 模型应用于包含更多与 COVID-19 相关的靶标和药物的数据集。换句话说,SDGAE 将被用于预测未来治疗 COVID-19 的潜在治疗药物。
综上所述,该研究为基于图神经网络编码的 DTI 预测模型提供了很好的启发。SCC 和 DDM 的思想可以毫无困难地应用于其他方法。因此,它为基于图神经网络编码的 DTI 预测方法的优化提供了一个总体思路。
源代码:https://github.com/936773184/SDGAE
数据集:https://github.com/luoyunan/DTINet
论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-023-05275-3