Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

GPU上运行速度比现有模型快3-7倍,IU团队使用全卷积神经网络进行准确的从头肽测序

图片

编辑 | 萝卜皮

从头肽测序不依赖于全面的靶序列数据库,这为科学家提供了一种从串联质谱中识别新肽的方法。然而,当前的从头测序算法的准确性和覆盖率较低,这阻碍了它们在蛋白质组学中的应用。

印第安纳大学(Indiana University,IU)的研究人员提出了 PepNet,一种用于高精度从头肽测序的全卷积神经网络。PepNet 将 MS/MS 谱(表示为高维向量)作为输入,并输出最佳肽序列及其置信度得分。PepNet 模型使用来自多个人类肽谱库的总共 300 万个高能碰撞解离 MS/MS 谱图进行训练。

评估结果表明,PepNet 在肽级精度和位置级精度方面均显著优于当前性能最佳的从头测序算法(例如 PointNovo 和 DeepNovo)。PepNet 可以对数据库搜索引擎未识别的大部分光谱进行测序,因此可以用作数据库搜索引擎的补充工具,用于蛋白质组学中的肽识别。

此外,PepNet 在 GPU 上的运行速度分别比 PointNovo 和 DeepNovo 快 3 倍和 7 倍,因此更适合大规模蛋白质组数据的分析。

该研究以「Accurate de novo peptide sequencing using fully convolutional neural networks」为题,于 2023 年 12 月 2 日发布在《Nature Communications》。

图片

过去十年见证了质谱技术的巨大进步,特别是液相色谱耦合串联质谱(LC-MS/MS)。随着通量和灵敏度的提高,LC-MS/MS 已成为对包括人类在内的高等生物体的各种生理(例如疾病)条件下的整个蛋白质组规模的蛋白质功能研究最广泛使用的方法之一。

在典型的蛋白质组学实验中,获得 MS/MS 谱图后,第一步(可以说是最重要的步骤)是从这些谱图中识别肽。人们开发了许多算法来解决这个问题,这些算法主要分为三类:蛋白质数据库搜索、光谱库搜索和从头测序。

蛋白质数据库搜索是肽鉴定的主要方法。肽序列标签法和 Sequest 算法是该类较早的算法。最近的开发包括 Mascot、X!Tandem、OMSSA、MyriMatch、Protein Prospector 和 MSGF+。这些方法将实验光谱与蛋白质数据库中肽生成的理论光谱进行比较,并报告那些可能真实的肽光谱匹配(PSM)。

相比之下,光谱库搜索方法将新采集的 MS/MS 光谱与包含早期计算分析中使用的先前表征的实验光谱的库进行比较。由于 MS/MS 数据的重复性和再现性的提高以及大量实验光谱的可用性不断提高(例如,来自蛋白质组学数据存储库和大规模合成肽项目),光谱库搜索方法已被越来越多地采用,并在 X!hunter、SpectraST 和 msSLASH 等软件工具中实施。

最后,从头测序算法尝试直接从 MS/MS 谱图中导出肽序列,而不使用谱库或蛋白质序列数据库等参考资料。许多从头测序算法采用图论公式,通过动态规划算法和自适应评分方案来计算谱图中的最长路径。随着高分辨率 MS 仪器的进步,从头测序算法的性能显著提高,特别是在更复杂的评分方案中。

近期,DeepNovo 及其后继模型 PointNovo 是使用深度学习算法开发的,该算法可以从大量肽的 MS/MS 谱图中自动学习与肽序列相关的碎片离子模式,并报告了性能的改进。这些方法利用深度神经网络 (DNN) 架构来捕获输入串联质谱中碎片离子之间的依赖性,随后将其用于按顺序构建肽。

尽管这些方法比传统的从头测序算法表现出更好的性能,但研究人员观察到它们可以对相对较少的长肽进行测序,特别是来自 Charge 3+ MS/MS 谱图,这可能是由于对碎片离子之间复杂的长程模式进行建模的挑战。另一方面,PredFull 采用的卷积神经网络(CNN)架构进行完整的 MS/MS 谱预测,展示了 CNN 学习 MS/MS 谱中复杂模式的优势。

因此,IU 的研究人员开发了一种名为 PepNet 的深度学习模型,与之前的方法相比,该模型显著提高了串联质谱从头肽测序的性能。

图片

图:PepNet 的神经网络架构。(来源:论文)

研究人员首先证明 PepNet 能够对人类 MS/MS 谱图进行高精度测序,然后证明 PepNet 可以在来自许多非人类生物体的 MS/MS 数据中始终表现良好。此外,对未识别光谱的从头测序结果表明,PepNet 有能力从 MaxQuant 忽略的光谱中发现大量识别,产生的识别比 MaxQuant 之前检测到的识别多几倍。

图片

图:PepNet、PointNovo 和 DeepNovo 在人类蛋白质组数据集中的 2+ 和 3+ 电荷谱上的准确度和精度覆盖曲线。(来源:论文)

平均而言,在相当的精度水平下,PepNet 可以比其他工具多 2.5-19 倍地测序未识别的光谱。

这表明,尽管 PepNet 是使用 MaxQuant 等数据库搜索工具测序的肽进行训练的,但 PepNet(和其他 de novo 算法)不受训练样本的特定肽知识的限制。因此,PepNet 可以用作蛋白质组数据分析的强大工具,特别是当没有全面的目标蛋白质序列数据库时(例如,在宏蛋白质组学中)。

研究人员认为,高精度肽测序的能力将使从头肽测序在蛋白质组学数据分析中的应用不断增加。除了论文里介绍的 HCD 谱图肽测序之外,PepNet 还可以扩展到使用其他碎片方法获取的 MS/MS 谱图,例如电子转移解离(ETD)、电子转移/高能碰撞解离(EThcD)、光解离(PD)和红外多光子解离(IRMPD)。这些方法通常被认为会产生复杂的 MS/MS 谱图,其中嵌入复杂 MS/MS 谱图的丰富信息有望提高从头肽测序的准确性。

总而言之,PepNet 显著提高了从头肽测序的准确性,因此可以作为数据库搜索引擎的补充工具,用于蛋白质组学中的肽鉴定。因此,研究人员认为 PepNet 将提高蛋白质组学数据分析的效率,并造福生命科学研究。

论文链接:https://www.nature.com/articles/s41467-023-43010-x

理论神经网络数据库
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

动态规划技术

动态规划(也称为动态优化),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题,只解决一次子问题并存储它的解决方案(solution),下一次遇到同样的子问题时无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间。动态规划适用于有最优子结构(Optimal Substructure)和重叠子问题(Overlapping Subproblems)性质的问题。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

图论技术

图论是以“图”为研究对象的一个数学分支,是组合数学和离散数学的重要组成部分。图是用来对对象之间的成对关系建模的数学结构,由“顶点”(又称“节点”或“点”)以及连接这些顶点的“边”(又称“弧”或“线”)组成。值得注意的是,图的顶点集合不能为空,但边的集合可以为空。图可能是无向的,这意味着图中的边在连接顶点时无需区分方向。否则,称图是有向的。

推荐文章
暂无评论
暂无评论~