Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI揭示微生物暗蛋白:使用机器学习来发现微生物蛋白质宇宙中的功能性「暗物质」

图片

编辑 | 白菜叶

宏基因组学项目揭示了地球生物圈中超过 80 亿个非冗余微生物蛋白质序列。其中,11.7 亿种蛋白质在超过 100,000 个可用参考基因组中没有可识别的同源物。了解这些微生物蛋白质的功能是一项艰巨的任务。幸运的是,机器学习最近在复杂生物数据建模和预测方面取得了前所未有的准确性。这些进步的最前沿是基于机器学习的方法,可以自信地预测许多(但不是全部)氨基酸序列的原子级蛋白质结构。

最近的一项研究使用 ESMFold 预测器,该预测器利用大型语言模型,从欧洲生物信息学研究所的 MGnify 宏基因组数据库快速生成 6.17 亿个结构。在所有预测中,大约 36% 的预测被认为具有较高的置信度。计算出的结构通过进化尺度建模宏基因组图谱数据库向社区提供。

许多预测的蛋白质来自不可培养或遗传上难以控制的微生物;因此,这种结构可以帮助微生物学家设计有关特定蛋白质分子功能的假设。然而,所得数据集的大小限制了对这些结构进行整体分析的程度。为了克服这一挑战,最近的三项研究使用序列聚类来缩小需要检查的数据范围,以找到新的蛋白质和结构。

图片

论文链接:https://www.science.org/doi/10.1126/science.ade2574

近期,有两项研究分析了 AlphaFold 数据库中 2.15 亿个预先计算的结构。

其中一项工作开发了一种方法称为 Foldseek cluster,它使用超快序列和结构比对器的组合来对序列进行聚类,然后对代表性结构进行聚类。经过质量过滤后,这种方法将 AlphaFold 数据库蛋白质空间减少到 230 万个结构。其中,略多于 700,000 个蛋白质簇 (~30%) 与实验确定的结构不匹配,并且无法使用 Pfam 或 TIGRFAM 注释进行功能注释。然而,在一些情况下,与注释簇的结构相似性,包括利用人类蛋白质来了解细菌蛋白质,使得能够对「黑暗」(即注释不良)簇中的几种细菌蛋白进行功能预测。

图片

论文链接:https://www.nature.com/articles/s41586-023-06510-w

另一项研究使用 UniProt 数据库中的预计算集群来定义一组 600 万个代表性结构。然后使用这些序列构建交互式序列相似性网络,其中根据将给定簇分配给实验表征的蛋白质家族的能力,为节点提供估计的「亮度」分数。对网络「黑暗」区域的更深入分析导致了对细菌毒素-抗毒素系统中起作用的新毒素蛋白家族的识别和随后的实验验证。

图片

论文链接:https://www.nature.com/articles/s41586-023-06622-3

还有一项研究分析了集成微生物基因组和微生物组数据库中存储的宏基因组和元转录组编码的 80 亿条序列。

首先通过删除与 Pfam 相似的蛋白质或参考基因组编码的序列来减少这个大数据集。使用基于图的方法对所得序列进行聚类。鉴定出近 100,000 个蛋白质家族,称为新的宏基因组蛋白质家族。AlphaFold 的使用以及基于结构的新型宏基因组蛋白家族的聚类产生了约 4,000 个独特的预测结构。尽管在序列水平上并不明显,但结构相似性使 62% 的蛋白质结构属于已知家族。

图片

论文链接:https://www.nature.com/articles/s41586-023-06583-7

总之,这些研究鉴定了新的蛋白质家族,并证明了结构相似性在鉴定家族关联中的价值,特别是对于高度分歧的序列。尽管定义未表征蛋白质的结构不一定揭示其功能,但在试图解码微生物基因组中包含的大量功能信息时,与表征蛋白质的结构相似性可以提供宝贵的推论。

相关报道:https://www.nature.com/articles/s41579-023-01002-0

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

收录于合集 #机器学习

 258个

上一篇可直接比较潜在新药的性能,杜克大学团队开发新的药物AI模型


理论机器学习蛋白质语言模型
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~