Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

深度学习预测蛋白质-蛋白质相互作用

编辑 | 萝卜皮

塔夫茨大学的 Lenore Cowen 教授和麻省理工学院的研究人员合作设计了一种基于神经语言建模的最新进展的结构驱动的深度学习方法。该团队的深度学习模型称为 D-SCRIPT,能够从初级氨基酸序列预测蛋白质 - 蛋白质相互作用 (PPI)。

研究人员结合神经语言建模和结构驱动设计的进步来开发 D-SCRIPT,这是一种可解释且可推广的深度学习模型,它仅使用其序列来预测两种蛋白质之间的相互作用,并在有限的训练数据和跨物种的情况下保持高精度。

测试结果表明,与最先进的方法相比,在 38,345 个人类 PPI 上训练的 D-SCRIPT 模型能够显着改善果蝇蛋白质的功能表征。在具有已知 3D 结构的蛋白质复合物上评估相同的 D-SCRIPT 模型,研究人员发现 D-SCRIPT 输出的蛋白质间接触图与基本事实有显着重叠。

该团队应用 D-SCRIPT 在全基因组范围内筛选奶牛(Bos taurus)的 PPI,并专注于瘤胃生理学,识别与代谢和免疫反应相关的功能基因模块。然后可以利用预测的相互作用进行大规模的功能预测,解决基因组到现象组的挑战,特别是在数据很少的物种中。

该研究以「D-SCRIPT translates genome to phenome with sequence-based, structure-aware, genome-scale predictions of protein-protein interactions」为题,于 2021 年 9 月 17 日刊载在《Cell Systems》。

图片

D-SCRIPT 是一种从序列预测 PPI 的可解释方法。D-SCRIPT 追求基于结构的方法,将蛋白质对的预测分数计算为它们各自结构的结合兼容性。由于结构在进化过程中比序列更保守,因此这种相互作用的物理模型可以很好地推广到整个物种。

图片

图示:D-SCRIPT 动机和工作流程。(来源:论文)

模型中的中间接触图表示是可直接解释的,可用于验证预测或研究残基尺度上的蛋白质结合区域。因此,D-SCRIPT 加入了计算生物学中可解释的深度学习方法中规模虽小但不断增长的一系列进展。该团队的模块化设计还支持在不同阶段研究模型输出,并且研究人员证明每一层都捕获增量结构信息。

基于序列的方法(如 D-SCRIPT)的优势在于,由于低成本基因组测序的巨大进步,输入序列数据几乎总是可用的。与同样采用序列作为输入的最先进的深度学习方法 PIPR 相比,D-SCRIPT 在物种间的通用性更好;因此,对于非模式生物或苍蝇等生物中研究较少的蛋白质的精确从头 PPI 预测更为有效。

图片

图示:D-SCRIPT 架构。(来源:论文)

研究人员怀疑 D-SCRIPT 在物种间的相对成功,但在物种内评估中表现不佳是由于模型的简单性和正则化的程度。这些设计选择增强了 D-SCRIPT 的普遍性,引导它学习相互作用的一般结构方面,而不是使用网络结构或任何单个蛋白质的频率作为相互作用伙伴。然而,对于某些任务,可能需要在 D-SCRIPT 的跨物种泛化性和其他最先进方法的物种内特异性之间取得平衡。未来的研究方向可能是迁移学习,将预训练的 D-SCRIPT 模型调整到目标物种,而另一种方法可能是将其与关联图论 PPI 预测相结合。

图片

图示:牛瘤胃中的蛋白质相互作用网络。(来源:论文)

值得注意的是,D-SCRIPT 不需要多序列比对 (MSA)。然而,在 D-SCRIPT 中使用的预训练语言模型是在整个蛋白质语料库的 MSA 上共同训练的,允许其输入特征化隐含地捕获进化保守的某些方面。以前,明确使用 MSA 的基于协同进化的方法已被证明在重建单蛋白质接触图和 3D 结构方面非常有效。将它们扩展到 PPI 预测时,另一个挑战是确定两个 MSA 行之间的正确对应顺序。

在同线性保守可以提供大量信息的原核基因组中,ComplexContact、EV Complex 和 Gremlin 等方法已被证明表现良好,并提供残基级相互作用的细节。然而,将这些方法扩展到更复杂的真核基因组方面的成功率较低。

图片

图示:D-SCRIPT 嵌入表示结构和交互。(来源:论文)

研究人员发现需要计算 MSA 是一个性能瓶颈,使得用它们进行真核基因组规模预测变得不可行,因此,限制了类似 EV 复合物的方法在该设置中的适用性。尽管如此,明确结合共同进化的见解可以提高 D-SCRIPT 的准确性,未来的工作可能会探索在不牺牲速度的情况下这样做的方法。来自预测接触图和单个蛋白质结构的相关进展的见解也可以纳入我们的模型架构。

D-SCRIPT 说明学习单个蛋白质的语言是一项非常成功的深度学习努力,也有助于解码蛋白质相互作用的语言。利用 Bepler 和 Berger 的预训练语言模型,能够间接受益于单个蛋白质 3D 结构的丰富数据。相比之下,直接用蛋白质复合物的 3D 结构监督的 PPI 预测方法,为了学习相互作用的物理机制,需要与相对较小的语料库抗衡。

图片

图示:D-SCRIPT 预测具有生物学意义的接触图。(来源:论文)

迫切需要可扩展的计算方法,以从非模式生物中的序列推断基因的功能。尽管测序革命有助于使基因组更广泛地可用,但仍然缺乏功能数据。使用 D-SCRIPT 进行 PPI 预测速度快,使基因组规模筛选成为可能。例如,该团队能够在 8 天内在单个 GPU 上评估 B. taurus 的 5000 万个候选 PPI。

使用 D-SCRIPT,一个由基因组规模 PPI 预测组成的工作流程,然后是 PPI 网络的图论分析以识别功能模块,可以生成大规模基因功能的高可信度预测;该团队在奶牛瘤胃案例研究中证明了这一点。

图片

这种从头 PPI 预测甚至在模型生物中也很有用,例如线虫,对于这些模型生物,PPI 网络的已知部分仍然非常稀疏。在确实存在一些 PPI 数据的其他生物体中,未来的工作可以将这些数据与 D-SCRIPT 预测有效地结合起来。研究人员希望它的广泛适用性、跨物种准确性和速度的结合将使 D-SCRIPT 成为解决「基因组到现象」挑战的有用社区资源。

论文链接:https://doi.org/10.1016/j.cels.2021.08.010

相关报道:https://www.eurekalert.org/news-releases/936669

理论基因编辑蛋白质
1
暂无评论
暂无评论~