编辑 | KX
蛋白质去噪扩散概率模型用于从头生成蛋白质骨架,但其在引导生成具有序列特异性属性和功能特性的蛋白质方面存在局限。
为了克服这一限制,华盛顿大学 David Baker 团队,开发了一种基于 RoseTTAFold 的序列空间扩散模型 ProteinGenerator (PG),可同时生成蛋白质序列和结构。
从噪声序列表示开始,PG 通过迭代去噪生成序列和结构对,并以所需的序列和结构蛋白质属性为指导。
研究设计了具有不同氨基酸组成和内部序列重复的耐热蛋白质和笼状生物活性肽,例如蜂毒肽。
PG 设计轨迹可以由实验序列活性数据指导,为蛋白质功能的综合计算和实验优化提供了一种通用方法。
该研究以「Multistate and functional protein design using RoseTTAFold sequence space diffusion」为题,于 9 月 25 日发布在《Nature Biotechnology》上。
蛋白质设计
蛋白质功能源于序列和结构特征的复杂相互作用;因此,设计新的蛋白质功能需要对序列和结构空间进行推理。
许多蛋白质设计方法分步对结构和序列进行采样,通常先生成蛋白质主链,然后使用逆折叠方法生成序列。
传统方法,如 Rosetta 灵活主链蛋白质设计,在结构和序列设计之间交替进行,而最近基于深度学习的方法通常先生成主链,然后使用序列设计方法,如 ProteinMPNN (MPNN),来识别折叠成给定主链的序列。在后一类方法中,去噪扩散概率模型 (DDPM) 在连续数据领域显示出相当大的前景,它允许生成受广泛结构约束的蛋白质主链。
DDPM 通过学习对受高斯噪声破坏的样本进行去噪来近似数据分布上的概率密度函数,从而能够从高斯先验中生成高质量样本;它们在蛋白质序列中的探索较少。
PG:基于 RoseTTAFold 的序列空间扩散模型
研究人员推断,在序列空间而不是结构空间中进行扩散,可以使用基于序列的特征指导设计,并可以明确地设计包含多个状态的序列。
为了能够对序列和结构特征进行调节,研究人员从 RoseTTAFold 结构预测网络开始,将其视为从输入序列和结构信息到输出序列和结构的映射,就像 RFdiffusion 的情况一样。推断 RoseTTAFold 可以适应序列空间扩散,通过对蛋白质数据库 (PDB;http://www.rcsb.org/) 中的蛋白质序列进行噪声处理,并进行训练以消除噪声,同时对结构预测精度造成损失,从而确保生成的模型对序列和结构都有深入的理解。
PG 在无条件设计准确度方面优于早期的幻觉方法,并且在从不同的高斯混合模型中采样时会生成结构多样的蛋白质。PG 很容易设计出支撑特定结构基序的蛋白质;通过 ESM 伪困惑度测量的 PG 序列质量与从 UniProt 采样的天然序列没有区别,并且明显高于使用 6.4 亿参数序列扩散模型 EvoDiff 生成的序列。
使用 PG 进行无条件生成可产生氨基酸组成与天然蛋白质相似的序列-结构对。
设计多状态和功能蛋白
计算模拟和实验结果表明,PG 可以轻松从头生成各种蛋白质,这些蛋白质受到各种序列域约束的影响,包括氨基酸组成偏差、重复序列对称性、生物活性肽笼和多态设计。
富含稀有氨基酸的蛋白质的设计
为了评估 PG 在 PDB 训练分布之外推理序列结构关系的能力,研究人员试图设计富含进化欠采样氨基酸的蛋白质,这些氨基酸赋予结构或功能特性。
使用此程序生成色氨酸、半胱氨酸、缬氨酸、组氨酸和蛋氨酸的高频率(20% 组成)蛋白质,其序列与天然蛋白质的序列非常不同。对生成的设计进行筛选,以获得高 AF2 置信度 (pLDDT > 90) 和自洽性 (设计的 RMSD < 2 Å),并选取 96 个进行实验表征。
结果表明,PG 可以推理超出天然蛋白质样序列组成的序列-结构关系,从而设计具有所需序列特性的折叠、热稳定性蛋白质。
序列重复蛋白的设计
含有序列结构单元串联拷贝的重复蛋白在自然界中普遍存在,在分子识别和信号传导中起着核心作用。
PG 可以很容易地适应生成重复蛋白,只需给定重复单元的序列长度和所需的重复次数,在每个时间步长上将重复对称性应用于噪声序列分布。
研究人员通过实验表征了 74 种带螺旋帽的重复蛋白和 86 种不带螺旋帽的重复蛋白。其中,27 种带帽的重复蛋白和 10 种不带螺旋帽的重复蛋白通过 SEC 可溶且为单体,使用圆二色性评估的 8 种蛋白中有 7 种具有预期的二级结构。解析了由四螺旋束不对称单元组成的五重复单元设计的晶体结构,发现该设计具有原子精度:设计与晶体结构的 C RMSD 为整个结构 1.38 Å,不对称单元 0.47 Å。
生物活性肽笼的设计
设计活性取决于外部输入的蛋白质对于具有空间和时间控制的治疗剂和生物传感器的设计具有相当大的意义。
给定肽序列和支架长度,PG 会生成包含肽序列作为蛋白质结构组成部分的设计,预计折叠至设计的支架的折叠时间大于 85 pLDDT,RMSD 小于 2 Å。
研究使用 PG 设计了将成孔肽蜂毒肽囚禁的蛋白质,该蛋白质可在末端环的蛋白水解裂解后有条件地释放。
尽管蜂毒素在分离时处于无序状态,PG 仍能够生成蜂毒素序列呈螺旋结构的溶液,随后对其进行了实验测试。在 13 种实验表征的设计中,有 5 种通过 SEC 可溶且单分散,通过 CD 折叠成螺旋二级结构且具有热稳定性。
多状态设计
研究人员通过对有不同结构约束的扩散轨迹之间的序列对数进行平均,设计了多状态父子蛋白质三元组(multistate parent–child protein triples),其中相同的序列在父级中完整时折叠成不同的超二级结构,而不是分裂成两个子域。
为了使 PG 适应多状态设计,向 RoseTTAFold 输入了相同序列但不同结构条件信息,并将输出对数的线性组合作为下一个时间步的输入。
除了多状态设计之外,预计 PG 能够直接基于序列进行指导的生成方法,可用于在定向进化活动中生成连续几轮序列以进行实验表征。
虽然可以使用在现有实验数据上训练的分类器直接使用贝叶斯优化和其他方法生成序列,但使用这些分类器来指导 PG 扩散轨迹具有相当大的优势,即可以利用 PG 网络中表示的丰富序列结构先验信息,这增加了生成的序列折叠和发挥作用的可能性。