Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

凯霞作者

新算法使用质谱数据准确、高效预测小分子「身份」,加速新药研发

小分子的鉴定是生命科学一项关键任务。质谱(mass spectrometry,MS)可用于分析化合物成分,高通量质谱技术能够从数十万个环境中收集小分子的串联质谱。然而,现有的方法是基于化学领域的知识,无法解释小分子质谱中的许多峰。
卡内基梅隆大学和俄罗斯圣彼得堡国立大学的研究人员提出一种算法——MolDiscovery,提高了小分子识别的效率和准确性。该算法使用分子的质谱数据来预测未知物质的「身份」,在研究早期告诉科学家他们是偶然发现了新事物,还是仅仅重新发现了已知事物,可节省发现新的天然医药产品的时间和金钱。
该研究于6月17日以「MolDiscovery: learning mass spectrometry fragmentation of small molecules」为题发表在《自然通讯》(Nature Communications)杂志上。
图片
MS 是一种电离化学物质并根据其质荷比(质量-电荷比)对其进行排序的分析技术。广泛应用于各个学科领域中通过制备、分离、检测气相离子来鉴定化合物。
质谱图是小分子的指纹,可以用一组质量峰表示,但与指纹不同的是,没有庞大的数据库来匹配它们。尽管已经发现了数十万种天然分子,但科学家们无法获得他们的质谱数据。
目前,已经出现了包含数万个小分子注释质谱的谱库,为开发基于机器学习的方法来提高计算机数据库搜索的灵敏度和特异性铺平了道路。然而,现有方法对于超小分子(< 400 Da)表现不佳,并且对于「重」小分子(>1000 Da)在计算上不足。
现在,该研究团队提出一种质谱数据库搜索方法—— MolDiscovery,通过学习概率模型来将小分子与其质谱相匹配,大大提高了小分子识别的准确性,同时使搜索效率提高了一个数量级。
从全球天然产物社会分子网络(GNPS;http://gnps.ucsd.edu) 搜索了 800 万个串联质谱后,MolDiscovery 以 0% 的错误发现率 (FDR) 鉴定了 3185 个独特的小分子,与现有方法相比,增加了 6 倍。在具有已知基因组的 GNPS 存储库的一个子集上,MolDiscovery 正确地将 19 个已知和三个假定的生物合成基因簇与其分子产物联系起来。
MolDiscovery 框架
MolDiscovery 框架主要分两个过程:训练过程和评分过程。具体步骤:
  • 从构建代谢物图和生成碎片图开始。对于后者,MolDiscovery 使用一种新的高效算法来查找代谢物图中的桥接和 2-cuts;

  • MolDiscovery 继续学习匹配碎裂图和质谱的概率模型(图 1a-e);

  • 对小分子光谱对进行评分(图 1f-k),计算 FDR。

图片
图片MolDiscovery 框架。(来源:论文)
基准测试
MolDiscovery 与其他五种最先进的方法进行了比较,数据库搜索结果显示,MolDiscovery识别效果最好,平均可以正确识别测试 GNPS 和 MoNA 数据中的 43.3% 和 64.3% 的小分子。
图片所有测试方法的最高 K = 1、3、5 和 10 准确度。(来源:论文)
MolDiscovery 也是针对 DNP 搜索 GNPS 的最快和最节省内存的方法之一。在预处理阶段,MolDiscovery 比其中一种方法快 300 倍以上。
还根据正确分子匹配的质量范围评估了运行时间。对于质量 >1000 Da 的分子光谱,相同质量范围内,MolDiscovery 平均只需 6 分钟和 24 秒。
注释 8 倍多的光谱,识别出 6倍多的独特化合物
从GNPS 搜索了 800 万个串联质谱,在严格的 0% FDR 水平下,MolDiscovery 注释了 8 倍多的光谱,并识别出比 Dereplicator+ (一种从MS中识别小分子的数据库搜索复制器)多6倍的独特化合物。
MolDiscovery 搜索在 10 个线程上花费了 34 天,与单线程上的预测 329 天非常接近。值得注意的是,在搜索如此大规模的光谱数据集时,MolDiscovery 比其他方法要高效得多,只需要对分子数据库进行一次预处理,可以有效地搜索未来的光谱。
节省新药研发时间、成本
「科学家们浪费了大量时间来分离已知的分子。」研究团队成员 Hosein Mohimani 说。「早期检测分子是否已知,可以节省时间和数百万美元,并有望使制药公司和研究人员更好地寻找可能用于新药开发的新型天然产品。」
Mohimani 解释说:「例如,科学家检测出一种在海洋或土壤样本中有望成为潜在药物的分子后,可能需要一年或更长时间才能识别出这种分子,而不能保证该物质是新的。MolDiscovery 使用质谱测量和预测机器学习模型快速准确地识别分子,且无需依赖质谱数据库进行匹配。」
该团队希望 MolDiscovery 将成为实验室发现新型天然产物的有用工具。MolDiscovery 可以与 Mohimani 实验室开发的机器学习平台 NRPminer 协同工作,帮助科学家分离天然产物。
理论识别小分子质谱数据MolDiscovery算法
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

推荐文章
暂无评论
暂无评论~