编辑 | 紫罗
蛋白质宇宙变得更加明亮了。
「潘多拉魔盒」打开了,蛋白质结构家族图谱让科学家们兴奋不已。
通过分析蛋白质的形状揭示了蛋白质之间前所未见的形式和意想不到的联系。
9 月 13 日最新发表在《Nature》的两篇研究,两个研究团队借助AlphaFold,探索了整个蛋白质家族,揭示了蛋白质进化秘密。
首尔大学和瑞士苏黎世联邦理工学院研究团队合作开发了一种基于结构对齐的聚类算法:Foldseek cluster,可以聚类数亿个结构。
瑞士巴塞尔大学和 SIB 瑞士生物信息学研究所(the SIB Swiss Institute of Bioinformatics)的研究团队,研究了 AlphaFold 数据库在多大程度上以高预测精度从结构上阐明了天然蛋白质宇宙的「暗物质」。
研究人员挖掘了一个数据库,其中包含几乎所有已知蛋白质的结构——使用 Google DeepMind 革命性的 AlphaFold 神经网络预测了超过 2 亿条条目。该研究揭示了全新的形状、生命机制中令人惊讶的联系,以及几年前无法想象的其他见解。
没有参与这两项研究的西班牙巴塞罗那 Josep Carreras 白血病研究所 (IJC) 的计算生物学家 Eduard Porta Pardo 说道,「借助 AlphaFold,我们现在可以探索我们一无所知的整个蛋白质家族。」
去年,谷歌 DeepMind 使用 AlphaFold 通过基因组数据预测了生物体中几乎所有已知蛋白质的结构,在 AlphaFold 数据库中积累了约 2.14 亿个结构,该数据库由由位于英国辛克斯顿的欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)托管。
结构簇
首尔大学(Seoul National University)的计算生物学家 Martin Steinegger 对绘制整个数据库的关系很感兴趣,他表示,科学家们立即发现该资源很方便,但他们中的许多人只关注单个结构或相关结构家族。「我认为看看我们的结构宇宙到底有多大会很有趣。」
为此,由 Steinegger 和瑞士苏黎世联邦理工学院计算生物学家 Pedro Beltrao 共同领导的团队开发了一种工具,可以根据形状的相似性快速比较数据库中的每个结构。这在 AlphaFold 数据库中识别出了超过 200 万个形状相似的蛋白质「簇」。
研究人员开发了一种基于结构对齐的聚类算法:Foldseek cluster,可以聚类数亿个结构。使用这种方法,研究人员对 AlphaFold 数据库中的所有结构进行了聚类,识别出 230 万个非单一结构簇,其中 31% 缺乏代表可能以前未描述的结构的注释。没有注释的簇往往具有很少的代表,仅覆盖 AlphaFold 数据库中所有蛋白质的 4%。
进化分析表明,大多数簇起源于古代,但 4% 似乎是物种特异性的,代表较低质量的预测或基因从头诞生的例子。还展示了如何使用结构比较来预测域族及其关系,识别远程结构相似性的示例。
该研究以「Clustering-predicted structures at the scale of the known protein universe」为题,于 2023 年 9 月 13 日发布在《Nature》上。
研究人员通常使用基因编码的蛋白质序列进行此类比较。但与它们的结构相比,蛋白质序列在进化过程中往往变化得更快,限制了寻找关系极远的蛋白质的能力。Steinegger 估计,通过比较蛋白质结构,他们识别出的相关蛋白质簇的数量是仅使用序列时的 10 倍。
研究人员才刚刚开始探索蛋白质宇宙中这些新发现的「星系」,但他们已经发现了一些令人惊讶的联系。例如,他们发现人类和其他复杂生物体用来检测病毒 DNA 并引发快速免疫攻击的一种蛋白质与来自单细胞细菌和古细菌的蛋白质处于一个簇中——这种联系以前并不为人所知,Steinegger 说 。
对于超过三分之一的蛋白质簇几乎一无所知。「我真的希望生物学家能够为这个黑暗带来一些曙光。」Steinegger 说。
EMBL-EBI 团队负责人 Sameer Velankar 表示:「Foldseek Cluster 不仅仅是一项技术进步;它是一项增强功能,可以提升全球研究人员的整个 AlphaFold 数据库体验。」
「随着 AlphaFold 蛋白质结构数据库 (AFDB)预测蛋白质结构的爆炸式增长,有效管理和导航这些数据已成为一项重大挑战,」他继续说道。「Foldseek Cluster 彻底改变了这一过程。我们正在努力将 FoldSeek 集群集成到 AFDB 中,以简化对大量蛋白质结构的分析,并使我们的用户社区更容易找到他们正在寻找的东西。」
前所未见的蛋白质形状
另一个团队采取了略有不同的方法来阐明蛋白质宇宙的暗物质。
瑞士巴塞尔大学和 SIB 瑞士生物信息学研究所的计算生物学家 Joana Pereira、Janani Durairaj、Torsten Schwede 及其同事创建了一个网络,该网络连接了 AlphaFold 数据库中超过 5000 万个最准确预测的结构((该工具提供了一种衡量它认为其预测有多好的方法)。然后,他们利用这些分组来识别蛋白质宇宙中一些最黑暗的角落。
具体而言,研究人员研究了 AlphaFold 数据库在多大程度上以高预测精度从结构上阐明了天然蛋白质宇宙的「暗物质」。进一步描述了这些模型所涵盖的蛋白质多样性,作为带注释的交互式序列相似性网络,可通过 https://uniprot3d.org/atlas/AFDB90v4 访问。
通过从序列、结构和语义角度寻找新奇点,研究人员发现了「β-花」(Beta-flower)折叠,向 Pfam 数据库添加了多个蛋白质家族, 并通过实验证明其中一个属于一个新的靶向翻译的毒素-抗毒素系统超家族,TumE-TumA。
该研究强调了大规模努力在识别、注释和优先考虑新型蛋白质家族方面的价值。通过利用最近蛋白质生物信息学领域的深度学习革命,现在可以以前所未有的规模揭示蛋白质宇宙的未知领域,为生命科学和生物技术的创新铺平道路。
该研究以「Uncovering new families and folds in the natural protein universe」为题,发布在《Nature》上。
一个令人惊喜的发现是一种以前从未见过的蛋白质形状。研究人员将其称为「β-花」,因为该结构包含许多发夹状旋转角——在一种已知的蛋白质形状中被发现,这种形状被称为「 β -桶」(Beta-barrel)——类似于花朵上的花瓣。Pereira 说,含有「β-花」的蛋白质彼此之间有远亲关系,但还不清楚它们的作用,他正在进一步研究这种形状。
「这项工作实际上打开了项目的潘多拉魔盒。我们必须决定优先考虑哪些,」Pereira 补充道。她和她的同事希望其他研究人员利用他们的网络来了解他们最喜欢的蛋白质如何适应更广泛的分子宇宙。
伦敦大学学院的计算生物学家 Christine Orengo 很高兴能够找到探索蛋白质宇宙的新方法。但她警告说,一些被认为对整个蛋白质高度准确的 AlphaFold 预测,可能不太准确地代表研究人员感兴趣的蛋白质功能部分或结构域的形状。Orengo 说,抛开这些异常,研究人员仍然有一个新的蛋白质家族的宝库,「这是令人难以置信的兴奋。」
谷歌 DeepMind AlphaFold 团队的领导者 John Jumper 并未参与这两项研究,他很高兴看到研究人员开发出新方法来探索他和同事们所释放的宇宙。他认为这些研究是一个新领域的开始,在这个领域中,蛋白质结构的研究规模达到了难以想象的程度。「我希望我们会看到更多。」