Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

用基于结构的突变偏好进行蛋白质设计,加州大学、MIT、哈佛医学院团队开发了一种无监督方法

图片

编辑 | 萝卜皮

当前最新的蛋白质设计方法,往往依赖于具有多达数百个数百万个参数的大型神经网络,同时并不清楚哪些残基依赖性对于确定蛋白质功能至关重要。

加州大学(University of California)、麻省理工学院(Massachusetts Institute of Technology)以及哈佛医学院(Harvard Medical School)的研究人员表明:在不考虑突变相互作用的情况下,单个残基的氨基酸偏好,可以解释 8 个数据集中的大部分甚至有时几乎所有的组合突变效应 (R^2 ~ 78-98%);所以,很少有观察结果(约突变残基数量的 100 倍)能够准确预测「保留的变异效应(held-out variant effects)」 (Pearson r > 0.80)。

该团队假设残基周围的局部结构背景足以预测突变偏好(mutation preferences),开发了一种称为 CoVES(Combinatorial Variant Efluects from Structure)的无监督方法,可使用基于结构的突变偏好进行蛋白质设计。

测试结果证明,CoVES 不仅优于无模型方法,而且还优于用于创建功能性和多样化蛋白质变体的复杂模型。CoVES 为识别功能性蛋白质突变的复杂模型提供了一种有效的替代方案。

该研究以「Protein design using structure-based residue preferences」为题,于 2024 年 2 月 22 日发布在《Nature Communications》。

图片

分子进化和蛋白质工程的一个关键问题是:「多个突变如何结合起来影响功能和未来的突变轨迹(mutational trajectories)」。给定蛋白质的可能突变轨迹可能是有限的,例如,如果单个取代的负面影响只能在另一个启用突变存在的情况下才能容忍。

从概念上讲,突变之间的这种特定依赖性产生了「崎岖」的适应度景观,其中对适应度增加突变的自然或实验选择,并不一定会产生最佳功能的蛋白质。另一方面,如果多个突变组合在一起而彼此之间没有特定的依赖关系,则序列适应度函数将产生一个简单的单调函数,选择可以更有效地发挥作用。同样,了解这种特定的依赖性对于确定突变组合,从而设计具有所需功能的蛋白质疗法至关重要。

蛋白质功能建模的新成果,主要集中在提高模型适应更复杂适应性景观的能力上,但生物蛋白质适应性景观的复杂性尚不明确。特定依赖性的数量随相互作用顺序增加。例如,氨基酸长度为 100的蛋白质有 2000 个一阶位点项,约 100 万个二阶项和约 2 亿个三阶项。

训练这类任务模型需要大量数据、昂贵的计算资源,超参数调整和大量训练时间;并且,过度参数化的模型,容易过度拟合和产生误报。对于大多数蛋白质,准确预测组合蛋白质变异效应需要哪些依赖关系尚不清楚。生物适应度景观的复杂性将决定任何模型近似适应度函数的能力。

CoVES:一种无监督方法

为了确定上位性在蛋白质适应性景观中的重要性,加州大学、麻省理工学院以及哈佛医学院的联合研究团队检查了 6 种蛋白质的组合变异效应(使用 8 个单独收集的数据集)。

研究人员发现,测量到的这些蛋白质的组合变异效应,可以通过仅考虑 20*N 残基突变偏好的函数得到很好的解释 (R^2~0.78–0.98),其中 N 表示突变位置的数量,通过全局非线性传递,不考虑突变之间的特定依赖性。

研究表明,少量的观察(对残基突变偏好参数的数量进行 5 倍过采样,并且在一个数据集中,观测值少至 100-200 个)足以对保留的组合变异效应实现高预测精度(Pearson r > 0.8),优于任何预测变异效应的无监督方法。

图片

图示:仅使用结构信息设计蛋白质序列,并使用根据实验观察训练的替代适应度函数评估设计的序列。(来源:论文)

据此,该团队设计了一种无监督策略,称为 CoVES(Combinatorial Variant Effects from Structure)。CoVES 通过使用等变图神经模型(将残基周围的结构背景作为输入)来推断所需的残基突变偏好,从而设计功能多样的蛋白质变体,而无需进行实验变体效应测量。

具体来说,只需使用 CoVES 独立地考虑残基微环境,就可以有效地设计出功能丰富且多样的变异体,这种方法在使用替代适应度函数评估蛋白质设计时,其表现与最先进的高容量神经方法相当。

图片

图示:CoVES 是一种从结构微环境中学习残基突变偏好的无监督方法,可以预测变异效应并生成设计功能性和多样化的序列。(来源:论文)

虽然这种突变偏好模型并未显式地捕获突变残基之间的依赖性,但这并不排除存在更高阶的上位性。

首先,每个残基的突变偏好本质上捕获了对邻近残基的隐含依赖性;实际上,研究人员观察到在接触残基处的突变可以改变给定残基的突变偏好。

其次,虽然 78-98% 的观察到的组合变异效应可以仅由突变偏好解释,但在某些数据集中,剩余的变异可能会由残基之间的真正的生物特异性依赖性解释。

观察结果表明,紧密的结构环境是变异效应预测和设计的主要决定因素。CoVES 与可以学习任意突变依赖性的自回归方法的性能相似,这表明局部结构环境可以捕获大部分预测效应。此外,研究人员还发现,在监督的全局上位性模型中,接触残基处的突变可以改变位点偏好。

结语

总的来说,该团队提供了一个新的视角来理解和设计蛋白质的变异效应,这对于未来的蛋白质工程和药物设计具有重要的启示意义。研究结果表明,通过考虑每个残基的突变偏好,可以有效地设计出功能丰富且多样的蛋白质变异体,这为蛋白质设计提供了一种新的可能性。这无疑将为蛋白质设计领域带来新的启示和挑战,值得我们进一步探索和研究。

论文链接:https://www.nature.com/articles/s41467-024-45621-4

理论
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

推荐文章
暂无评论
暂无评论~