Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

预测结果与实验数据基本一致,AlphaFold2应用于研究蛋白活化

编辑 | 萝卜皮

用于蛋白质结构预测的基于神经网络的模型最近已达到接近实验的准确性,并且正在迅速成为生物学家武器库中的强大工具。正如使用 RoseTTAFold 或 AlphaFold2 的 ColabFold 实现的初步研究所建议的那样,未来一个特别有趣的发展方向将是优化这些计算方法,从而获得蛋白质-蛋白质相互作用的高可信度预测。

瑞典赫丁格卡罗林斯卡学院(Karolinska Institute)的 Luca Jovine 使用 AlphaFold2 和 ColabFold 来研究尿调节蛋白(UMOD)/Tamm-Horsfall 蛋白的活化和聚合;这是一种含有透明带(ZP)模块的蛋白质,其前体和丝状结构已通过 X 射线晶体学和冷冻电镜(cryo-EM)实验确定。

尽管不了解 UMOD 聚合物结构(其坐标既不用于模型训练,也不用作模板),AlphaFold2/ColabFold 能够概括 UMOD 聚合背后的关键构象变化,以及由此产生的细丝中蛋白质亚基的一般组织。这一令人惊讶的结果,是通过简单地从输入序列中删除一段对应于聚合抑制 C 端前肽的残基来实现的。

通过在计算机上模拟由蛋白质前体的位点特异性蛋白水解触发的前肽解离的激活作用,这个例子对外被蛋白和许多其他也包含 ZP 模块的分子的组装有影响。最重要的是,它显示了利用机器学习的应用潜力,不仅可以准确预测单个蛋白质或复合物的结构,还可以进行复制特定分子事件的计算实验。

该研究以「Using machine learning to study protein–protein interactions: From the uromodulin polymer to egg zona pellucida filaments」为题,于2021年9月29日发布在《Molecular Reproduction and Development》杂志。

预测结果与实验数据基本一致,AlphaFold2应用于研究蛋白活化


相关生物学背景

从软体动物到人类,外被 [在哺乳动物中称为透明带(ZP),在非哺乳动物中称为卵黄膜(VE)] 是一种特殊的细胞外基质,在卵子成熟、受精等生理过程中起着关键的生物学作用。这些功能与外被的结构有着内在的联系,而外被的结构又依赖于由「ZP结构域」介导的细丝的组装;ZP 结构域是一个在所有外被亚单位以及其他细胞外蛋白中保守存在的二部聚合模块。

单个 ZP/VE 亚基的结构研究表明,ZP 模块由两个结构相关的免疫球蛋白样域 ZP-N 和 ZP-C 组成,它们由域间链接器隔开。ZP 模块聚合在 C 末端前肽(CTP)的裂解依赖性解离时被激活,C 末端前肽包括构成 ZP-C 的最后一个 β 链的聚合阻断外部疏水贴片(EHP)。最近含有 ZP 模块的尿蛋白尿调节蛋白(UMOD;也称为 Tamm-Horsfall 蛋白)的 X 射线和冷冻电子显微镜(EM)结构揭示了由其 CTP 解离引发的剧烈构象变化。然而,观察到的重排的幅度提出了 ZP 模块细丝组装是否也可能涉及聚合伴侣的问题,并且不清楚在异聚体外被细丝的情况下是否发生了等效的构象变化。

在这里,Luca Jovine 使用 AlphaFold2 和 ColabFold,以ZP 模块以及 UMOD 相关蛋白的聚合反应为示例,研究机器学习在蛋白质-蛋白质互作中的应用。

具体做了些什么

本章节整体来说就是研究人员使用 AlphaFold2 和 ColabFold 对几个有互作关系的蛋白的互作结构进行预测,同时与电镜解析图像进行比较,发现置信度很高;同时也在不同物种中进行了相关实验,预测得出的结论与电镜及X射线信息基本一致。内容比较详细,若难以理解,可直接阅读下一章节。

聚合抑制状态下的 UMOD ZP 模块的建模

作为必要的控制,首先使用 AlphaFold2 对 UMOD 的 C 端部分进行建模,其结构是由 X 射线晶体学确定的。这部分蛋白质包括其弹性蛋白酶/链霉蛋白酶抗性片段,足以发生聚合,由表皮生长因子结构域(EGF IV)组成。

预测结果与实验数据基本一致,AlphaFold2应用于研究蛋白活化


图 1:AlphaFold2 准确预测了尿调制素(UMOD)的透明带(ZP)模块在其聚合无能状态下的结构。(来源:论文)

尽管在建模过程中没有使用 UMOD 的实验结构作为模板,并且与存放在 EMBL-EBI 的相应预测一致,但 AlphaFold2 产生的前五个模型与蛋白质晶体学信息非常一致;既是在 ZP-N 水平 [106 Cα 上的平均均方根偏差(RMSD) :2.2 Å] ,也包括域间链接器、ZP-C 和 CTP 的区域(180 Cα 上的平均 RMSD:2.0 Å)。

此外,尽管单体 AlphaFold2 模型的 ZP-N 和 ZP-C 结构域的相对取向,仅与在同二聚体晶体结构中观察到的近似相似(模型 1-4 的平均 RMSD 超过 286 Cα:6.8 Å);所有模型的域间连接器都严格采用实验观察到的预聚合构象,由 α-螺旋(α1)和 β-链(β1)组成(24 Cα 的平均 RMSD:1.1 Å)。

全球距离测试(GDT_TS)得分为 95.3(ZP_N)和 88.9(linker + ZP-C + EHP),这些结果表明 AlphaFold2 可以准确地模拟 UMOD ZP 模块的两个部分。另一方面,与在晶体结构中观察到的链间变异性一致,ZP-N 和 ZP-C 域的相对取向不太明确。

UMOD ZP 模块聚合激活状态的建模

为了研究为聚合而激活的蛋白质的状态,研究人员使用 AlphaFold2 对 UMOD 相同区域的变体进行建模;该区域在 hepsin 切割位点的 C 端被截断,因此缺乏 EHP。这导致一组显着不同的相对 ZP-N/ZP-C 方向,排名前三的模型具有域间链接器,其 α1 区域转换为面向 ZP- C(IHP;一种类似于 EHP 的元素,对应于 β 链 A,也参与聚合)内部疏水性补丁的 β 链(α1β')并与其 β 链 F 配对以替换缺失的 EHP。

引人注目的是,这种构象变化和分子间相互作用,类似于在 UMOD 细丝(the UMOD filament)的冷冻电镜结构中观察到的关键分子间相互作用之一;因此激活的 ZP 模块的 ZP-N 和 ZP-C 结构域可以很容易地叠加到 UMOD 亚基的 ZP-N 域和细丝内前一个亚基的 ZP-C 域(RMSD 1.2 Å 超过 229 Cα)。

相反,在排名第四和第五的模型中发现了一种不同的构象,其中 ZP-N/ZP-C 接头采用了扩展构象,也与 ZP-C 的同一区域接触;然而,在这种情况下,这种相互作用是由接头的 C 端部分介导的,与前三个模型相比,它以相反的方向与 βA"(另一个参与 UMOD 聚合的 ZP-C 链)和起始部分 βA/IHP 配对。

预测结果与实验数据基本一致,AlphaFold2应用于研究蛋白活化


图 2:没有外部疏水贴片(EHP)会导致不同的透明带(ZP)模块构象模拟尿调节蛋白(UMOD)细丝中发现的亚基/亚基相互作用。(来源:论文)

UMOD 多个激活亚基之间相互作用的建模

由于之前的计算实验仅包含一个 UMOD 分子,因此研究人员使用 ColabFold 的 homoligomer 选项来模拟包含两个 UMOD 激活聚合区域副本的系统。尽管所得模型在整体形状方面彼此显着不同,但其中四个(包括排名最高的模型)共享一个共同的圆形排列,其中每个亚基的 ZP-N/ZP-C 接头参与同其他亚基的相互作用,所有这些都模拟了在 UMOD 聚合物的实验结构中观察到的接触。这些包括:

(1)接头的 α1β' 与另一个亚基 ZP-C 结构域的 βF 的反平行配对;

(2)接头的 α1β" 与另一个亚基 ZP-C 结构域的 βA" 平行配对;

(3)接头的 β1 与另一个亚基 ZP-N 结构域的 βG 平行配对。

值得注意的是,在对由仍包含 EHP 的两个分子组成的系统进行平行建模时,没有观察到这些接头介导的相互作用;无一例外,这产生了模型,其中两个亚基的域间接头均采用图 1 中所示的 α1 + β1 预聚合构象,并且不产生分子间相互作用。

预测结果与实验数据基本一致,AlphaFold2应用于研究蛋白活化


图 3:多亚基系统的 ColabFold 建模再现了尿调制素(UMOD)细丝中的透明带(ZP)-N/ZP-C 接头产生的三个主要相互作用。(来源:论文)

虽然在对 UMOD 的三个切割副本建模时观察到亚单位相对位置的更大变化,但值得注意的是,其中一个模型再现了实验观察到的总体布局,一个分子的扩展结构域间连接体包裹在前一个亚单位的 ZP-C 结构域和后一个亚单位的 ZP-N 结构域周围(图 3)。

延伸至外被蛋白丝

ColabFold 能够生成模型来概括稳定 UMOD 均聚物的主要蛋白质 - 蛋白质相互作用的一部分,那么这些表示意味着构成外被细丝的不同亚基之间存在什么样的相互作用呢?

为了回答这个问题,研究人员模拟了 ZP2 和 ZP3 的复合物,这是小鼠 ZP 的两个主要亚基,被认为形成沿着细丝重复的异二聚体。如图 4 所示,该预测的结果基本上反映了在 UMOD 的情况下观察到的结果,表明 ZP2 和 ZP3 的域间接头(在单个蛋白质的晶体结构中很大程度上无序)也采用 β 链,也存在它们与 ZP 细丝内相邻亚基的 ZP-C 和 ZP-N 结构域配对的构象。

预测结果与实验数据基本一致,AlphaFold2应用于研究蛋白活化


图 4:ZP2/ZP3 蛋白复合物的 ColabFold 建模,由 ZP-N 结构域加一个亚基的域间接头和接头加另一个亚基的 ZP-C 结构域组成。(来源:论文)

适当解释一下

最近的技术突破以 AlphaFold2 和 RoseTTAFold 的开源代码的发布而落下帷幕,使蛋白质结构预测既可以竞争,又可以促进实验结构的确定。越来越多的报告强调了这一点,即两种系统产生的模型都可以用传统实验方法对相应蛋白质进行定相,以及拟合由冷冻电镜获得的图。包括人类在内的几个主要实验系统的蛋白质组的高质量结构预测数据库的可用性,必将在不久的将来显着扩展这些应用程序和其他应用程序。

同时,它无疑将为大量生物学问题的功能研究提供信息,这些问题的实验结构数据要么有限,要么缺失。在此背景下,未来主要兴趣的发展将是将这些计算方法扩展到蛋白质-蛋白质相互作用的可靠预测。事实上,尽管 AlphaFold2 和 RoseTTAFold 网络最初都是为了预测单个蛋白质结构而开发的(因此,训练的是单体蛋白质而不是复合物),但 RoseTTAFold 已经被证明能够成功预测许多已知的蛋白质复合物。此外,在 AlphaFold2 的 ColabFold 实现中也添加了类似的功能。

在这项研究中,Jovine 探索了使用 AlphaFold2 和 ColabFold 深入了解包含 ZP 模块的蛋白质的聚合机制的可能性;这是一个具有高度可变结构和生物功能的细胞外分子大家族。

Jovine 特别关注 UMOD,它是人类尿液中含量最丰富的蛋白质,也是防御尿路感染的主要参与者,因为它是该分子家族中唯一可以提供前体和聚合状态的实验结构信息的成员。

这项实验的结果不仅对 UMOD 本身的暗示很有趣,而且对其他结构相关分子(例如外被蛋白)的暗示也很有趣。更一般地说,它支持这样的想法,即像 RoseTTAFold 一样,AlphaFold2 具有远远超出对单个蛋白质结构预测的应用潜力。

这一令人惊讶的结果表明,相同的基本方法可以普遍适用于许多其他生物医学上重要的分子系统,其功能在蛋白质合成后受到类似的调节。

论文链接:https://onlinelibrary.wiley.com/doi/10.1002/mrd.23538

相关报道:https://phys.org/news/2021-10-artificial-intelligence-biology.html

产业
暂无评论
暂无评论~