Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

仅根据蛋白质序列便可预测相互作用界面,一种基于Transformer的蛋白预测模型

图片

编辑 | 萝卜皮

蛋白质-蛋白质相互作用(PPI)对于生物过程至关重要,预测这些相互作用的位点对于计算和实验应用都很重要。

杜克大学(Duke University)和康奈尔大学(Cornell University)的研究人员提出了一种与结构无关的语言Transformer和肽优先级(Structure-agnostic Language Transformer and Peptide Prioritization,SaLT&PepPr)管线,用于仅根据蛋白质序列预测相互作用界面,以用于后续生成肽结合基序。

该模型通过每个位置预测任务对 ESM-2 蛋白质语言模型 (pLM) 进行微调,从而使用 PDB 中的数据识别 PPI 位点,并优先考虑最有可能参与链间结合的基序。通过仅使用氨基酸序列作为输入,该模型与基于结构同源性的方法具有竞争力,但与同时输入结构和序列特征的深度学习模型相比,性能下降。

受使用共晶设计目标结合「引导」肽结果的启发,研究人员整理了 PPI 数据库来识别后续肽衍生的分子伴侣。将引导肽融合到 E3 泛素连接酶结构域,该团队证明了内源性 β-连环蛋白、4E-BP2 和 TRIM8 的降解,并强调了他们在癌细胞中表现最佳的降解剂的纳摩尔结合亲和力、低脱靶倾向和功能改变能力。

该团队表明,通过 pLM 优先考虑自然相互作用中的结合物可以实现可编程的蛋白质靶向和调节。

研究「SaLT&PepPr is an interface-predicting language model for designing peptide-guided protein degraders」,于 2023 年 10 月 24 日发布在《Communications Biology》。

图片

将紧凑蛋白结合物与各种 E3 泛素连接酶结构域融合,能够选择性结合、泛素化和不同目的蛋白的细胞内降解。生成一个模块化系统来设计这些基因编码的构建体,称为泛在体(uAb),将代表一种灵活的靶向蛋白质降解(TPD)方法。

受到 RNA 引导的 CRISPR 基因组编辑的可编程性的启发,杜克大学和康奈尔大学的研究人员之前使用从蛋白质-蛋白质相互作用(PPIs)的结合共晶结构的结合界面中鉴定出的线性基序作为后续生成靶标降解uAb的「引导」肽。

然而,这种基于结构的方法依赖于经过实验验证的目标蛋白共晶,这种共晶仅占人类蛋白质组的 <25%。金标准 PPI 数据库包含超过 75% 的人类蛋白质组的结合序列,因此代表了指导肽生成的丰富信息来源。

因此,研究人员假设利用 PPI 信息从伴侣蛋白序列中识别蛋白相互作用位点,可能能够对 uAb 介导的 TPD 的引导肽进行更广泛的优先排序。

图片

图示:用于肽优先级排序的界面预测语言模型。(来源:论文)

在最新的工作中,该团队应用蛋白质语言模型(pLM)来识别输入蛋白质序列中的结合基序,而不需要三维蛋白质结构。通过准确预测经过验证的相互作用伙伴上的这些蛋白质结合位点,他们优先考虑用于下游 uAb 生成的引导肽。

为此,该团队基于最先进的 ESM-2 pLM 创建了一个与结构无关的语言 Transformer 和肽优先级 (SaLT&PepPr) 模型,首先预测沿输入相互作用伙伴序列的相互作用位点,并通过与 PPI 数据库集成,实现输入靶蛋白的连续引导肽候选物的分离。

作为第一个概念验证,研究人员利用已知的相互作用信息来生成高亲和力、特异性肽引导的 β-连环蛋白降解剂,β-连环蛋白是一种核心转录调节因子,其失调经常导致癌细胞增殖。

然后,研究人员证明 SaLT&PepPr 可以以数据驱动的方式有效地将引导肽优先考虑到 4E-BP2 和 TRIM8,这些引导肽被集成到 uAb 架构中,并发现可以诱导靶标降解。具体来说,靶向 TRIM8 的 uAb 可诱导尤文肉瘤细胞凋亡,这与之前的遗传学研究一致。

该研究进一步证明了 pLM 在识别蛋白质-蛋白质结合界面方面的应用,虽然它对结构化目标的效果不如当前最先进的方法,但与结构同源性或基于特征的方法相比具有竞争力。研究人员设想未来的模型将更大的语言模型与进化和结构信息相结合,并直接考虑相互作用的蛋白质,可能会进一步提高计算和实验性能。

总的来说,通过将基于 pLM 的结合预测与用于蛋白质降解的 uAb 相结合,该工作激发了利用蛋白质相互作用来设计用于大规模蛋白质组编辑应用的可编程工具。

论文链接:https://www.nature.com/articles/s42003-023-05464-z

理论pLMESM-2 pLMRNA内源性 β-连环蛋白
暂无评论
暂无评论~