Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Nature子刊,快10倍,基于Transformer的逆向蛋白质序列设计方法

图片

编辑 | 萝卜皮

借助深度学习的进步,蛋白质设计和工程正以前所未有的速度发展。然而,目前的模型无法在设计过程中自然地考虑非蛋白质实体。

在这里,瑞士洛桑联邦理工学院(EPFL)的研究人员提出了一种完全基于原子坐标和元素名称的几何 transformer 的深度学习方法,该方法可以根据不同分子环境所施加限制的主链支架,预测蛋白质序列。

使用该方法,研究人员可以以高成功率生产出高热稳定性、催化活性的酶。这有望提高蛋白质设计流程的多功能性,以实现所需的功能。

该研究以「Context-aware geometric deep learning for protein sequence design」为题,于 2024 年 7 月 25 日发布在《Nature Communications》。

图片

设计蛋白质以实现功能性任务是一个具有重大生物学、医学、生物技术和材料科学影响的挑战。一个关键应用领域是蛋白质治疗药物的设计,通过定制蛋白质来精确针对特定疾病,可能比小分子药物更具竞争力。这种方法可能革新许多健康问题的治疗方式,从自身免疫疾病到癌症,提供更有效和个性化的治疗方案。

此外,设计酶功能也是蛋白质设计中的另一个重要挑战。酶作为天然催化剂在生物过程中起关键作用。通过设计新酶或改造现有酶,可以创造出促进自然界中罕见或不存在反应的催化剂。这对多个行业有深远影响,包括制药业和环保技术,例如合成复杂药物分子或分解污染物和塑料。

深度学习方法显著加速了蛋白质设计的成功率和多样性。然而,虽然目前的蛋白质设计模型可以处理多条蛋白质链,但在处理非蛋白质实体时表现较差,限制了其应用范围。

为解决这一问题,EPFL 的研究团队曾经引入了一种深度学习模型——Protein Structure Transformer(PeSTo),一种几何 transformer 架构,作用于原子点云。

PeSTo 结合了 transformer 注意力机制,利用标量和矢量状态表示原子,可以预测几乎任何分子与蛋白质界面的相互作用,包括蛋白质、核酸、脂类、离子、小配体、辅因子或碳水化合物。

在最新的工作中,该团队利用该模型的独特功能,并引入了基于 PeSTo 的蛋白质序列生成器模型 CARBonAra(Context-aware Amino acid Recovery from Backbone Atoms and heteroatoms)。

CARBonAra 基于 PDB 中可用的结构数据进行独特训练,可预测给定主链支架所有位置的氨基酸置信度,这些主链支架可以单独提供,也可以与任何种类和数量的有助于推动序列设计的分子复合。

图片

图示:CARBonAra的架构以及与 SOTA 方法的比较。(来源:论文)

CARBonAra 的组成与性能

CARBonAra 使用由几何 transformer 组成的深度学习模型,预测从输入主干支架中在蛋白质序列的每个位置找到给定氨基酸的可能性。CARBonAra 将主链原子(Cα、C、N、O)的坐标和元素作为输入,并使用理想的键角和键长添加虚拟 Cβ 原子。几何形状使用每个原子之间的距离和归一化相对位移矢量来描述。

几何 transformer 操作对所有相邻原子的相互作用进行编码,并使用 transformer 处理标量和矢量信息并更新每个原子的状态。最后,通过将原子状态从原子级别汇集到残基级别,研究人员训练模型以位置特定评分矩阵的形式预测蛋白质序列每个位置的氨基酸置信度。

实际上,这些置信度可以被解释为并映射到概率中,通过表征在给定每种氨基酸类型的预测置信度的情况下正确预测的概率。

图片

图示:预测置信分析。(来源:论文)

与其他模型一样,CARBonAra 通过使用独热编码将特定氨基酸的先前序列信息印入主链原子来支持自回归预测。

最重要的是,CARBonAra 继承了 PeSTo 仅使用元素名称和原子坐标的能力,无需进行大量参数化,从而可以轻松适应各种场景。

因此,CARBonAra 可以解析和处理正在设计的蛋白质主链附近的任何分子实体,其中包括其他蛋白质、小分子、核酸、脂质、离子和水分子等一系列输入。

数据集

利用 CARBonAra 固有的灵活性,研究人员能够将 RCSB PDB 中的所有生物组装体纳入他们的训练数据集。

这包括与其他分子实体(如离子、配体、核酸等)复合的蛋白质。训练数据集由大约 370,000 个亚基组成,验证数据集中还使用了另外 100,000 个亚基,所有这些亚基均来自 RCSB PDB 生物组装体,并被注释为最佳可能。

与以前建立的方法相比,遵循稍微更严格的协议,测试数据集由大约 70,000 个亚基组成,与没有共享 CATH 域的训练集不同,并且在低于 30% 的序列同一性下进行过滤。

该选择标准确保了测试的稳健性,因为它排除了训练数据集中存在的类似折叠和序列。

图片

图示:在 GPU 上运行时分析。(来源:论文)

对于从不含非蛋白质分子的骨架结构中分离蛋白质或蛋白质复合物的序列设计,CARBonAra 的表现与 ProteinMPNN 和 ESM-IF1 等最先进的序列预测方法相当,并且计算成本具有竞争力(在 GPU 上比 ProteinMPNN 快约 3 倍,比 ESM-IF1 快 10 倍)。

从主链结构重建蛋白质序列

该方法在从主链结构重建蛋白质序列时,蛋白质单体设计的序列恢复率中值为 51.3%,二聚体设计的序列恢复率中值为 56.0%。尽管恢复率相似,但三种方法的最佳序列之间的序列同一性中值为 54% 至 58% 不等。

此外,研究人员观察到 CARBonAra 可以生成高质量序列,当在单序列模式下使用 AlphaFold 预测时,这些序列可以按预期折叠,TM 分数高于 0.9。

CARBonAra 在蛋白质核心处学习了更紧密的氨基酸包装,从而导致更高的回收率并反映了对典型的埋藏氨基酸取代的较低耐受性,同时允许蛋白质表面具有更高的可变性,除非提供额外的功能或结构限制。

图片

图示:埋藏于表面的氨基酸的分析。(来源:论文)

从主干支架进行序列预测的方法主要在具有理想主干几何形状的实验数据上进行训练,当应用于生成的主干时会导致性能下降。在训练过程中向几何图形添加噪声可以缓解此问题。

研究人员通过将 CARBonAra 应用于分子动力学 (MD) 模拟的结构轨迹来表征该方法的稳健性。由于主链构象变化和先前显示低恢复率的病例增加,序列恢复率(53±10%)与一致预测(54±7%)没有显著下降。

同时,研究人员观察到每个位置预测的可能的氨基酸数量普遍减少,这表明探索构象空间正在限制序列空间,从而使得能够设计有针对性的结构构象。

图片

图示:主链构象对预测的影响。(来源:论文)

具有超出蛋白质设计本身的意义

研究人员在一个主力系统(即 TEM-1 丝氨酸 β-内酰胺酶)上进行了实验,展示了 CARBonAra 如何处理酶工程的挑战,设计出在高温下折叠并保持催化活性的实际蛋白质。此外,研究人员还探索了从 CARBonAra 的输出中采样蛋白质序列空间的重点策略。

由于不能确定由得分最高的氨基酸产生的蛋白质序列是否具有功能性,因此需要采用取样策略来产生可以在体外重组表达且稳定且具有功能的蛋白质。

目前为止,这尚未经过彻底测试。该团队在此表明,适当的采样策略不仅可以生成丰富的信息来产生起作用的蛋白质,而且还可以生成反映在自然序列中观察到的或通过诱变和选择实验采样的自然变异的合成多序列比对。

这具有超出蛋白质设计本身的意义,特别是为了解蛋白质在生物物理一致的蛋白质进化模型框架内如何进化打开了一扇窗户。

从根本上来说,提高计算设计的成功率对于真正掌握这一领域非常重要,更实际的是,可以在实验室中尝试实际表达和纯化时降低成本。

超高成功率

现在基于人工智能的方法开始稳定下来,这成为一个重要的讨论点。不同的方法和报告显示的成功率差异很大,但通常不清楚如何评估每种方法。

Chroma 进行了非常保守的评估,将其成功率设定为 3% 左右,而 RoseTTAFold/ProteinMPNN 论文报告称几种蛋白质的平均成功率为 15%。

使用该研究报告的 TEM-1 β-内酰胺酶设计,成功率达到 40%。同样,TIM 桶和 NTF2 折叠的成功率也高达 40-55%,远高于之前的平均 15%。

适合提高蛋白热稳定性

除了直接应用于设计新蛋白质和调整蛋白质功能之外,CARBonAra 似乎还非常适合提高热稳定性,就像其他蛋白质设计方法一样,它们也能产生坚固、高热稳定性的蛋白质。

这一观察结果揭示的一个有趣方面与用于稳定制造和工业过程的酶的设计序列的知识产权有关:通常,设计的酶会以覆盖较小但相当大的序列相似性范围的方式受到保护。

从历史上看,这已经足够全面了;然而,包括 CARBonAra 在内的现代蛋白质设计方法可以设计出相似性低得多的蛋白质,这些蛋白质可以保留功能并高度稳定。

结语

展望未来,与其他蛋白质设计方法相比,CARBonAra 具有一些优势,主要与其仅基于元素名称和坐标的内部工作有关,不需要任何进一步的参数化或中间计算。

因此,CARBonAra 看起来比其他替代方案更灵活。因为它可以从本质上解析任何类型的分子系统,所以可以对其他类型的生物分子(例如核酸、小分子、离子,甚至水)或生物组合中未发现的分子(如材料和表面)进行训练,前提是有足够的数据。

总之,CARBonAra 独特地基于结构数据,是一种概念上不同的蛋白质序列预测和设计方法,具有解决分子设计和合成生物学未来挑战所需的额外灵活性。

论文链接:https://www.nature.com/articles/s41467-024-50571-y

理论AI for Science生物计算学家人工智能深度学习蛋白质序列
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

独热编码技术

独热编码是将分类变量转换为可提供给机器学习算法更好地进行预测的形式的过程。 一种稀疏向量,其中:一个元素设为 1;所有其他元素均设为 0。 one-hot 编码常用于表示拥有有限个可能值的字符串或标识符。例如,假设某个指定的植物学数据集记录了 15000 个不同的物种,其中每个物种都用独一无二的字符串标识符来表示。在特征工程过程中,您可能需要将这些字符串标识符编码为 one-hot 向量,向量的大小为 15000。

推荐文章
暂无评论
暂无评论~