Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

同时生成蛋白序列和结构,David Baker团队序列空间扩散新模型登Nature子刊

图片

编辑 | KX

蛋白质去噪扩散概率模型用于从头生成蛋白质骨架,但其在引导生成具有序列特异性属性和功能特性的蛋白质方面存在局限。

为了克服这一限制,华盛顿大学 David Baker 团队,开发了一种基于 RoseTTAFold 的序列空间扩散模型 ProteinGenerator (PG),可同时生成蛋白质序列和结构。

从噪声序列表示开始,PG 通过迭代去噪生成序列和结构对,并以所需的序列和结构蛋白质属性为指导。

研究设计了具有不同氨基酸组成和内部序列重复的耐热蛋白质和笼状生物活性肽,例如蜂毒肽。

PG 设计轨迹可以由实验序列活性数据指导,为蛋白质功能的综合计算和实验优化提供了一种通用方法。

该研究以「Multistate and functional protein design using RoseTTAFold sequence space diffusion」为题,于 9 月 25 日发布在《Nature Biotechnology》上。

图片

论文链接:https://www.nature.com/articles/s41587-024-02395-w

蛋白质设计

蛋白质功能源于序列和结构特征的复杂相互作用;因此,设计新的蛋白质功能需要对序列和结构空间进行推理。

许多蛋白质设计方法分步对结构和序列进行采样,通常先生成蛋白质主链,然后使用逆折叠方法生成序列。

传统方法,如 Rosetta 灵活主链蛋白质设计,在结构和序列设计之间交替进行,而最近基于深度学习的方法通常先生成主链,然后使用序列设计方法,如 ProteinMPNN (MPNN),来识别折叠成给定主链的序列。在后一类方法中,去噪扩散概率模型 (DDPM) 在连续数据领域显示出相当大的前景,它允许生成受广泛结构约束的蛋白质主链。

DDPM 通过学习对受高斯噪声破坏的样本进行去噪来近似数据分布上的概率密度函数,从而能够从高斯先验中生成高质量样本;它们在蛋白质序列中的探索较少。

PG:基于 RoseTTAFold 的序列空间扩散模型

研究人员推断,在序列空间而不是结构空间中进行扩散,可以使用基于序列的特征指导设计,并可以明确地设计包含多个状态的序列。

为了能够对序列和结构特征进行调节,研究人员从 RoseTTAFold 结构预测网络开始,将其视为从输入序列和结构信息到输出序列和结构的映射,就像 RFdiffusion 的情况一样。推断 RoseTTAFold 可以适应序列空间扩散,通过对蛋白质数据库 (PDB;http://www.rcsb.org/) 中的蛋白质序列进行噪声处理,并进行训练以消除噪声,同时对结构预测精度造成损失,从而确保生成的模型对序列和结构都有深入的理解。

图片

图示:PG 概览。(来源:论文)

PG 在无条件设计准确度方面优于早期的幻觉方法,并且在从不同的高斯混合模型中采样时会生成结构多样的蛋白质。PG 很容易设计出支撑特定结构基序的蛋白质;通过 ESM 伪困惑度测量的 PG 序列质量与从 UniProt 采样的天然序列没有区别,并且明显高于使用 6.4 亿参数序列扩散模型 EvoDiff 生成的序列。

使用 PG 进行无条件生成可产生氨基酸组成与天然蛋白质相似的序列-结构对。

设计多状态和功能蛋白

计算模拟和实验结果表明,PG 可以轻松从头生成各种蛋白质,这些蛋白质受到各种序列域约束的影响,包括氨基酸组成偏差、重复序列对称性、生物活性肽笼和多态设计。

富含稀有氨基酸的蛋白质的设计

为了评估 PG 在 PDB 训练分布之外推理序列结构关系的能力,研究人员试图设计富含进化欠采样氨基酸的蛋白质,这些氨基酸赋予结构或功能特性。

使用此程序生成色氨酸、半胱氨酸、缬氨酸、组氨酸和蛋氨酸的高频率(20% 组成)蛋白质,其序列与天然蛋白质的序列非常不同。对生成的设计进行筛选,以获得高 AF2 置信度 (pLDDT > 90) 和自洽性 (设计的 RMSD < 2 Å),并选取 96 个进行实验表征。

图片

图示:具有指定序列组成的蛋白质的设计。(来源:论文)

结果表明,PG 可以推理超出天然蛋白质样序列组成的序列-结构关系,从而设计具有所需序列特性的折叠、热稳定性蛋白质。

序列重复蛋白的设计

含有序列结构单元串联拷贝的重复蛋白在自然界中普遍存在,在分子识别和信号传导中起着核心作用。

PG 可以很容易地适应生成重复蛋白,只需给定重复单元的序列长度和所需的重复次数,在每个时间步长上将重复对称性应用于噪声序列分布。

图片

图示:使用 PG 设计序列重复蛋白。(来源:论文)

研究人员通过实验表征了 74 种带螺旋帽的重复蛋白和 86 种不带螺旋帽的重复蛋白。其中,27 种带帽的重复蛋白和 10 种不带螺旋帽的重复蛋白通过 SEC 可溶且为单体,使用圆二色性评估的 8 种蛋白中有 7 种具有预期的二级结构。解析了由四螺旋束不对称单元组成的五重复单元设计的晶体结构,发现该设计具有原子精度:设计与晶体结构的 C RMSD 为整个结构 1.38 Å,不对称单元 0.47 Å。

生物活性肽笼的设计

设计活性取决于外部输入的蛋白质对于具有空间和时间控制的治疗剂和生物传感器的设计具有相当大的意义。

给定肽序列和支架长度,PG 会生成包含肽序列作为蛋白质结构组成部分的设计,预计折叠至设计的支架的折叠时间大于 85 pLDDT,RMSD 小于 2 Å。

图片

图示:用 PG 搭建生物活性肽和内在条形码。(来源:论文)

研究使用 PG 设计了将成孔肽蜂毒肽囚禁的蛋白质,该蛋白质可在末端环的蛋白水解裂解后有条件地释放。

尽管蜂毒素在分离时处于无序状态,PG 仍能够生成蜂毒素序列呈螺旋结构的溶液,随后对其进行了实验测试。在 13 种实验表征的设计中,有 5 种通过 SEC 可溶且单分散,通过 CD 折叠成螺旋二级结构且具有热稳定性。

多状态设计

研究人员通过对有不同结构约束的扩散轨迹之间的序列对数进行平均,设计了多状态父子蛋白质三元组(multistate parent–child protein triples),其中相同的序列在父级中完整时折叠成不同的超二级结构,而不是分裂成两个子域。

为了使 PG 适应多状态设计,向 RoseTTAFold 输入了相同序列但不同结构条件信息,并将输出对数的线性组合作为下一个时间步的输入。

图片

图示:PG 的多态设计。(来源:论文)

除了多状态设计之外,预计 PG 能够直接基于序列进行指导的生成方法,可用于在定向进化活动中生成连续几轮序列以进行实验表征。

虽然可以使用在现有实验数据上训练的分类器直接使用贝叶斯优化和其他方法生成序列,但使用这些分类器来指导 PG 扩散轨迹具有相当大的优势,即可以利用 PG 网络中表示的丰富序列结构先验信息,这增加了生成的序列折叠和发挥作用的可能性。

理论AI for Science映射蛋白质
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

欠采样技术

欠采样是信号处理学中的一种采样技术,也叫带通采样(bandpass sampling),是一种以低于其奈奎斯特采样定理(采样频率两倍高于被采样频率)的采样率对带通滤波信号进行采样且仍然能够重建信号的技术。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

高斯混合模型技术

高斯混合模型(Gaussian Mixture Model,GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

推荐文章
暂无评论
暂无评论~