Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

湖南大学团队在生物医学网络上使用新的 SSL 策略,助力药物发现

编辑 | 萝卜皮

生物医学网络上的自我监督表示学习 (SSL) 为药物发现提供了新机遇;然而,有效地组合多个 SSL 模型仍然具有挑战性。

湖南大学、中科院、鹏程实验室的研究人员提出了 SSL 在生物医学网络上用于药物发现的多任务联合策略,命名为 MSSL2drug。该团队设计了六个基本的 SSL 任务,这些任务受到各种模式知识的启发,包括异构生物医学网络中的结构、语义和属性。

研究人员发现:(1)多模态任务的组合比其他多任务联合模型获得更好的性能;(2)当模态数量相同时,局部-全局组合模型比随机双任务组合产生更高的性能。因此,研究人员推测多模式和局部-全局组合策略可以作为多任务 SSL 药物发现的指南。

该研究以「Multitask joint strategies of self-supervised representation learning on biomedical networks for drug discovery」为题,于 2023 年 4 月 24 日发布在《Nature Machine Intelligence》。

图片

药物发现是提高人类生活质量的重要任务;然而,这是一个昂贵、耗时且复杂的过程,而且失败的可能性很高。为了提高药物发现的效率,大量研究人员致力于开发利用深度学习来加速其中间步骤,例如分子特性预测、药物-靶标相互作用(DTI)预测和药物-药物相互作用(DDI)预测。这些方法的一个关键优势是深度学习算法可以捕获输入和输出数据之间复杂的非线性关系。

深度学习技术在过去几年逐渐成为药物发现的强大范例。大多数深度学习架构,如卷积神经网络和递归神经网络,只能在规则的网格状数据(例如,二维图像和文本序列)上运行,不太适合图形数据(例如,DDI 和 DTI 网络);然而,在现实世界中,生物医学数据通常以图形或网络的形式形成。

特别是,集成多种类型数据源的生物医学异构网络(BioHNs)被广泛用于生命科学研究。这是直观的,因为 BioHN 非常适合模拟生物系统中的复杂相互作用。例如,结合 DDI、DTI、蛋白质-蛋白质相互作用 (PPI) 和蛋白质-疾病关联的 BioHN 可以自然地模拟人体内的「多药物、多靶点、多疾病」生物过程。

在生物医学网络应用的背景下,图神经网络 (GNN) 被用来改进药物发现。过去的工作使用 GNN 来生成 BioHN 中每个节点的表示,并将药物发现制定为节点或边缘级别的预测问题。

这种基于图神经网络的药物发现方法表现出高精度预测,但大多数现有方法严重依赖于训练样本的大小;也就是说,只有大规模的训练样本才能帮助模型取得出色的性能。性能随着训练样本大小的变化而急剧变化。

不幸的是,数据标记既昂贵又耗时。因此,这些依赖于大规模标记数据的基于图的深度学习模型在真实的药物开发场景中可能并不令人满意。

自监督表示学习 (SSL) 是解决上述问题的一个很有前途的范例。在 SSL 中,深度学习模型是通过前置任务进行训练的,其中监督信号是从未标记的数据中自动提取的,无需手动注释。自监督表示学习旨在引导模型生成广义表示,以在各种下游任务上实现更好的性能。随着 SSL 在计算机视觉和自然语言处理方面的巨大成功,基于 BioHN 的 SSL 模型越来越受到关注,并已成功应用于药物发现。

不幸的是,大多数现有方法通常设计一个单一的 SSL 任务来训练 GNN 进行药物发现,从而导致对单一任务的内在偏见,同时忽略了 BioHN 的多视角特征。为了应对单任务驱动的 SSL 应用程序中的潜在瓶颈,已经有一些尝试利用多个 SSL 任务来促进药物发现的性能。

这些方法旨在通过多任务学习范式整合各种类型 SSL 任务的优势;然而,过去的大多数方法都是根据涉及多个任务的固定联合策略来训练 GNN,而没有关注各种多任务组合之间的差异。与此同时,很少有人探索确定哪些组合策略可以产生最有效的改进。因此,重要的是要注意 SSL 方法中多任务组合策略的选择。基于 BioHNs 的多任务 SSL 方法用于药物发现仍处于初始阶段,迫切需要进行更系统的研究。

因此,湖南大学、中科院、鹏程实验室的研究人员提出了 SSL 在药物发现生物医学网络上的多任务联合策略(MSSL2drug)来解决上述问题。受三种模态特征(BioHN 中的结构、语义和属性)的启发,开发了六项自我监督任务,用于探索各种 SSL 模型对药物发现的影响。

图片

图示:MSSL2drug 工作流程概述。(来源:论文)

基于六项自监督学习任务,研究人员发现基于全局知识的 SSL 模型在药物发现方面优于基于本地信息的 SSL 模型。这是直观且易于理解的,因为基于全局视图的 SSL 任务可以捕获本地 SSL 模型无法自然学习的复杂结构和语义。他们还发现基于属性弱约束的 SSL 任务优于基于强约束的模型。这可能是由于相似性评分函数是手工制作的,无法准确反映原始特征空间中节点之间的相似性。不幸的是,节点相似性回归任务任意拟合节点对的节点相似性值。相比之下,相似性对比任务减少了对原始特征相似性值的依赖。

然后,该团队在两个药物发现场景中,通过基于图注意力的多任务对抗学习模型评估了 15 个多任务联合策略。十五种多任务组合通过基于图注意力的多任务对抗学习模型进行药物发现评估。这些结果表明,当模态数量相同时,联合训练全局和局部任务可以获得相对较高的预测性能。相比之下,将具有出色性能的任务组合起来并不一定会比药物发现的其他多任务组合带来更好的性能。

这很直观,因为 SSL 任务的随机组合可能存在一些冲突和冗余;然而,全局和局部 SSL 模型的组合使 GNN 能够利用 BioHN 中的补充信息。具体来说,局部图 SSL 模型可以捕获节点本身或其一阶邻居内部的特征,但忽略了 BioHNs 中节点位置的鸟瞰图。幸运的是,全局 SSL 模型可以学习远程邻域之间的依赖关系,从而弥补本地 SSL 任务的缺点。

同时,一个有趣的发现是具有多模式任务的组合模型往往会产生最佳性能。这是因为多模态任务的组合可以捕获 BioHN 中的多视图信息,包括结构、语义和属性特征。多模式 SSL 模型允许跨多个视图进行知识转移,并深入了解 BioHNs 中的自然现象。对于给定的 SSL 任务,在不同的多任务组合中有不同级别的贡献。

一般来说,如果一个 SSL 任务能够为多任务模型带来新的模态信息,它会产生相对更大的贡献。此外,如果将本地(全局)信息驱动的 SSL 任务添加到全局(本地)信息驱动的 SSL 任务中,往往会带来高性能提升。在开发用于药物发现的多任务 SSL 时,可以优先考虑多模式和局部-全局组合策略。

换句话说,当你想使用 MSSL2drug 进行药物发现时,你可以根据多模式和局部-全局组合策略自行设计多任务 SSL 模型。另一方面,你也可以直接使用 PairDistance–EdgeMask–SimCon 进行药物发现,因为它集成了多模态和局部-全局 SSL 任务,并取得了最佳性能。

在深度学习的应用中,当标记数据相对稀少时,很容易出现过拟合问题,即使其训练性能较大,也表现出测试性能较低。幸运的是,大量研究表明,多任务学习技术可以大大降低过度拟合的风险。特别是,多任务自监督学习可以进一步克服过度拟合问题,并已成为一种很有前途的范例。

这背后的主要原因来自两个方面:(1)SSL 任务驱动深度学习模型从未标记数据中学习广义表示,从而减少下游任务(例如DDI预测和DTI预测)对标签数据的依赖;(2) 多任务学习模型可以在多个 SSL 任务之间传输和共享知识,以生成更通用和信息丰富的表示。因此,像 PairDistance–EdgeMask–SimCon 这样的多任务 SSL 模型可以降低过度拟合的风险。

论文链接:https://www.nature.com/articles/s42256-023-00640-6

产业
暂无评论
暂无评论~