Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

雪松编辑

生物信息分析技术评测:病毒连续序列识别工具的仿真研究与比较评价

病毒是地球上存在最丰富的生物实体之一。然而,已知的病毒遗传信息数量比少之又少。当前的研究病毒的常用技术是宏基因组测序分析。但是,由于病毒的基因组较小,阅读丰富较低,病毒读数占比通常不到宏基因组序列的5%。
来自科罗拉多大学安舒茨分校的研究人员,对Vibrant、VirSorter、VirSorter2、VirFinder、DeepVirFinder、MetaPhinder、KraKen2、Phybrid、BLAST,9种先进的生物信息学工具进行了基准测试,评估了9种工具在宏基因组数据中识别病毒和噬菌体序列的能力。对病毒识别工具进行全面分析,评估它们在各种情况下的性能,将为公开的宏基因组数据中挖掘病毒序列的研究人员提供重要参考。
本研究于2021年6月16日以「Simulation study and comparative evaluation of viral contiguous sequence identification tools」为题发布在《BMC Bioinformatics》杂志
图片

背景

起初,病毒的研究发展相对缓慢,原因在于病毒营寄生生活难以扩大培养,更有大量病毒无法通过实验室培养获得。病毒的分离纯化相对困难,进一步限制了病毒的研究。但随着测序技术的发展,研究宏基因组逐渐成为研究病毒最有效的方法。
通过测序科学家已经拿到了大量病毒的基因组,但是相比于原核生物和真核生物,病毒基因组的数据丰度依然少之又少。原因是多方面的,首先病毒的基因组较小,且没有通用的靶标序列,不易被发掘;另一方面,许多溶源噬菌体(一种侵染细菌的病毒)的基因组会嵌合在宿主基因组中难以发现。为解决这一问题,研究人员开发了各种序列分析软件,包括基于机器学习的序列分析软件。在这里,科罗拉多大学的研究人员主要对当前比较常用的九种序列分析工具进行了评测。
方法与手段
图片测试所用的四种宏基因组
为了综合检验这些软件的性能,研究人员利用机器算法构建了四种类型的基因组数据集;之后利用这些工具对嵌合的病毒基因组进行识别分析,然后运用这些工具对识别到的病毒基因组进行仿真模拟;同时利用相应算法对每种序列工具的整体性能(准确率、召回率、F值)进行打分;除了整体性能外,工具性能还以四个离散重叠群长度进行评估:1 KB–2.5 KB、2.5 KB–5 KB、5 KB–10 KB、10 KB+。
结果与讨论
图片识别噬菌体时的工具平均性能和模拟排名
图片按分类学条件计算的工具的F1分数
不同读取模拟条件下的 F1 性能没有显着差异(H = 4.02,p = 0.404,Kruskal-Wallis)。Te F1 性能因分类复杂性而显著不同;相比于中、高复杂性模拟(H = 47.65,p = 4.50e-11,Kruskal-Wallis),在低复杂性模拟中具有更好的工具性能。应对较长重叠群时的 F1 性能、精确度和召回率,特别是10KB+bin 相对于其他重叠群长度更高(H = 275.7,p = 1.82e-59,Kruskal-Wallis)。图示2展示了工具的平均性能和 30 次模拟的平均排名。图示3 显示了由分类复杂性离散的模拟中工具的 F1 性能。
Kraken2 在平均准确率和精度排名中均处于领先地位。在这项研究中,BLASTp工具在搜索蛋白质方面,其召回率和召回率排名表现最佳。具有最高平均 F1 分数和最佳 F1 排名的工具是 VirSorter;VirSorter同时也是用于执行原噬菌体识别的工具;这使得VirSorter在噬菌体鉴定方面比其他工具更具优势。
图片识别预测菌体时的工具平均性能和模拟排名
图示4展示了,在 20 个中高复杂度模拟时,识别原噬菌体工具的 F1 性能。随着重叠群长度的增加,工具的性能得到提高。图示5展示了每个工具在定义的重叠群长度盒子内的 F1 性能。如果工具的 F1 分数为 0,则该记录将被删除,因为一些较低复杂度的模拟缺少较短的连续序列。
图片在所有模拟中跨重叠群长度集合的工具的 F1 分数
在30个宿主属中计算了来自中等和完全分布的病毒元素的召回分数。召回仅在大于0时保留,以防止生态位缺少噬菌体宿主属。图示6显示了所有工具中宿主属对病毒重叠群的召回。召回最好的病毒宿主属是黄单胞菌属。感染肠球菌的噬菌体在所有工具中的平均召回率超过0.83。DeepVirFinder 在识别感染肠球菌的噬菌体方面表现最好,平均召回率为 0.97。奈瑟菌原噬菌体序列在所有工具中的平均召回率最低 (0.23),只有 7 个工具正确预测了奈瑟菌原噬菌体重叠群。使用来自 Earth Virome Pipeline 的蛋白质进行的 BLASTp 搜索,在识别未知的原噬菌体方面表现最佳 (召回率为0.68),其次是 MetaPhinder(召回率为0.24)。

图片宿主属在中等和完全复杂性模拟中的病毒召回

这项研究对宏基因组学中病毒识别工具的性能,进行了基准测试和比较。病毒识别性能指标与属/原噬菌体召回相结合,突出了使用特定病毒识别工具的优势和挑战。该研究可作为指导,协助后续研究选择工具。
理论生物信息学
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

推荐文章
暂无评论
暂无评论~