Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

安徽大学团队提出了一种基于多标签的深度学习方法来预测 21 类治疗性多肽的功能

图片

编辑 | 萝卜皮

随着后基因组时代产生的大量肽序列,非常需要快速鉴定治疗性肽的各种功能。此外,通过基于序列的计算工具预测准确的多功能治疗肽 (MFTP) 是一个巨大的挑战。

安徽大学的研究人员提出了一种名为 ETFC 的基于多标签的新方法来预测 21 类治疗性肽。该方法利用基于深度学习的模型架构,该架构由四个模块组成:嵌入、文本卷积神经网络、前馈网络和分类模块。

该方法还采用了一种具有新颖的多标签焦点骰子损失函数(multi-label focal dice loss function)的不平衡学习策略。解决了多标签数据集中固有的不平衡问题,取得了有竞争力的性能。

该研究以「Deep learning-based multi-functional therapeutic peptides prediction with a multi-label focal dice loss function」为题,于 2023 年 5 月 22 日发布在《Bioinformatics》。

图片

治疗性肽是长度从 5 个 AA 到 50 个 AA 不等的短氨基酸 (AA) 单体链,作为抗感染剂、激素、生物信使和神经递质发挥着重要作用。

近年来,随着高通量测序技术和实验数据采集技术的发展,越来越多的多功能治疗肽(MFTP)被鉴定出来。此外,由于高特异性和选择性、低毒性和短半衰期等关键优势,治疗性多肽比传统药物更安全。

在后基因组时代,存在着大量功能未知的肽序列。用于鉴定功能肽的湿实验室实验费时费力,严重影响开发效率。如何高效、准确地探索这些多肽的更多功能已成为最紧迫的挑战之一。

基于序列的计算方法提供了一种大规模预测功能性治疗肽的高效方法,并已被提议作为生物学家筛选的主要手段。

基于机器学习算法的多标签分类 (MLC) 是一种非常理想的 MFTP 识别方法。问题转换和算法适配是 MLC 最常见的两种方法。问题转换方法将 MLC 转换为一组独立的二进制分类。这种方法被广泛应用并且是许多 MLC 任务的基础,但忽略了二元分类之间的标签相关性。算法自适应方法,应考虑标签相关性以减轻二进制分类的缺点。

此外,这些现有的方法都使用了不平衡的数据集,其中少数类的肽数量远少于多数类。并且数据不平衡问题限制了大规模高通量预测的性能。

图片

图示:用于 MFTP 预测的 ETFC 方法框架。(来源:论文)

为了解决这类问题,安徽大学的研究团队提出了 ETFC,一种用于预测 MFTP 的基于 DNN 的新型 MLC 方法。在 ETFC 模型中,基于语义和基于位置的嵌入块结合 MHSA 可以捕获更多的肽序列信息,文本卷积神经网络(TextCNN)可以从肽序列中提取更有效的信息。

为了处理 MLC 数据集中的不平衡问题,研究人员设计了一种新的损失函数,称为多标签焦点骰子损失 (MLFDL),用于基于 FL 和骰子损失 (DL) 的 MLC。MLFDL 可以通过利用标签相关性来动态地为标签分配权重,以提高预测性能。

与现有的多标签方法相比,ETFC 实现了最佳性能。MLFDL 应用于 ETFC 模型以解决多标签数据集中固有的不平衡问题并获得有竞争力的性能。

此外,该团队使用基于师生框架的知识蒸馏(teacher–student framework-based KD)来获得 AA 的重要性并量化他们对每个类别的肽序列中的贡献,并增强模型的可解释性。预计预测因子 ETFC 将成为一种非常有用的高通量工具,用于识别 MFTP 并帮助生物学家有效地筛选潜在的多肽药物。

论文链接:https://academic.oup.com/bioinformatics/article/39/6/btad334/7175420

产业
暂无评论
暂无评论~