Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

分类性能提高 10%,港中大利用大型蛋白质语言模型发现未知信号肽

编辑 | 萝卜皮

信号肽 (SP) 对于跨膜和分泌蛋白靶向并将其转移到正确位置至关重要。许多现有的预测 SP 的计算工具忽视了极端的数据不平衡问题,而依赖于蛋白质的额外组信息。

香港中文大学的研究人员开发了无偏生物体不可知信号肽网络(Unbiased Organism-agnostic Signal Peptide Network,USPNet),一种 SP 分类和切割位点预测深度学习方法。

大量的实验结果表明,USPNet 的分类性能比之前的方法大幅提高了 10%。USPNet 的 SP 发现流程旨在从宏基因组数据中探索从未见过的 SP。

它揭示了 347 个 SP 候选物,这些候选物与训练数据集中最接近的 SP 之间的序列同一性很低,最低仅为 13%。此外,训练集中候选物和 SP 之间的模板建模分数大多在 0.8 以上。

这些结果表明,USPNet 已经通过原始氨基酸序列和大型蛋白质语言模型学习了 SP 结构,从而能够发现未知的 SP。

该研究以「Unbiased organism-agnostic and highly sensitive signal peptide predictor with deep protein language model」为题,于 2023 年 12 月 13 日发布在《Nature Computational Science》。


信号肽 (SP) 是一种短氨基酸序列,可作为特定的靶向信号来引导蛋白质并将其转移至分泌途径。它具有三域结构:带正电的 N 区、疏水性的 H 区和不带电的 C 区。SP 作为特定片段引导蛋白质到达正确位置,然后被 C 区附近的切割位点切割。因此,SP 的鉴定对于研究蛋白质的功能至关重要。

由于 SP 的全面实验鉴定可能非常耗时且耗费资源,因此人们提出了许多计算工具来对 SP 进行分类并预测切割位点。

最近,监督模型在 SP 识别方面取得了很大进展。查询序列被编码为嵌入向量,然后输入模型以直接计算每种 SP 类型的概率。比如:DeepSig将深度卷积神经网络(CNN)架构应用于SP的识别和分离位点位置的预测。此外,SignalP5.0 的出现并对之前提出的所有方法进行了基准测试,而 SignalP6.0 能够预测之前模型无法检测到的所有五种类型的 SP。

这些方法在任务中取得了先进的性能,但大多数都存在极端的类不平衡,因此在小类数据上表现不佳。此外,这些方法通常在很大程度上依赖于有关生物体群体的附加信息来提高其性能。然而,现实中从宏基因组数据中获取足够的群体信息是不切实际的。一个强大的工具应该只需要氨基酸序列就可以产生准确的预测结果。

受到最近开发的蛋白质语言模型的启发,该模型可以隐式编码功能和结构信息并有利于各种下游任务,香港中文大学的研究团队提出了基于双向长短期记忆 (BiLSTM) 框架和蛋白质语言模型的无偏生物体不可知信号肽预测器 (USPNet),用于对 SP 进行分类并预测其切割位点位置。


图:用于预测 SP 和切割位点的 USPNet 工作流程。(来源:论文)

研究人员利用基于高级多序列比对(MSA)的蛋白质语言模型来丰富表示,从而帮助编码序列的组信息。该团队将类平衡损失与标签分布感知边缘(LDAM)损失结合起来作为 USPNet 的损失函数,从而提高泛化能力。该方法有效地对所有五种类型的 SP 和非 SP 型蛋白质进行分类。

研究人员将他们的模型与其他几个与任务相关的深度学习模型进行比较。与之前最先进的方法相比,USPNet 在多个类别上的 Matthews 相关系数 (MCC) 提高了 10% 以上。

然后,该团队构建了从处理宏基因组数据到进行未知 SP 检测的完整流程。研究人员从多个资源收集猪肠道宏基因组数据,最终从数百万个序列中筛选出 347 个肽作为与现有 SP 序列一致性较低且可能是未知SP的候选肽。


图:USPNet 在域转移数据上的性能。(来源:论文)

同样,该方法仍有改进的途径。首先,USPNet 的 MSA 过程非常耗时。USPNet-fast 速度提高约 20 倍;因此,用户可能更喜欢使用 USPNet-fast 来节省大量时间。

其次,虽然 USPNet 对于大多数 SP 类型的预测优于以前的方法,但 USPNet-fast 在革兰氏阳性组的 Sec/SPII 上表现更好。这主要是由于 MSA 质量较低。正确预测的 MSA Neff 分数平均高于错误预测的 Neff 分数。

最后,USPNet 和 USPNet-fast 在识别古细菌 Sec/SPI SP 方面的结果并不是特别令人印象深刻。研究人员认为造成这种现象的原因是他们的损失函数根据不同类型的 SP 的数量调整其权重,从而使 USPNet 倾向于将肽分为小类。为了缓解这种情况,该团队还提供了专注于预测 Sec/SPI 类别的训练模型。

未来,加速MSA的生成预计将成为一个重要的研究方向,因为它是确保结构预测等多个下游任务精度的基础。因此,MSA的进步可以极大地提高各种下游任务以及USPNet的效率。

论文链接:https://www.nature.com/articles/s43588-023-00576-2

产业语言模型深度学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~