Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

港中大&之江实验室&华为&南医大提出逆向蛋白质折叠设计模型 ProRefiner

图片

编辑 | 紫罗

逆向蛋白质折叠(Inverse Protein Folding,IPF)是蛋白质设计的一项重要任务,其目的是设计与给定主链结构兼容的序列。尽管该任务的算法发展迅速,但现有方法在生成序列时往往依赖于位于局部邻域的噪声预测残基。

为了解决这个限制,来自香港中文大学、之江实验室、华为诺亚方舟实验室和南京医科大学的研究团队,提出了一种基于熵的残差选择方法来消除输入残差上下文中的噪声。此外,研究还引入了 ProRefiner——一种内存高效(memory-efficient)的全局图注意力模型,可以充分利用去噪上下文。

所提出的方法在不同设计 setting 的多个序列设计基准上实现了最先进的性能。此外,还证明了 ProRefiner 在重新设计转座子相关转座酶 B(TnpB)方面的适用性,提出的 20 个变体中有 6 个表现出改进的基因编辑活性。

该研究以《ProRefiner: an entropy-based refining strategy for inverse protein folding with global graph attention》为题,于 2023 年 11 月 16 日发布在《Nature Communications》上。

图片

当前深度学习建模蛋白质结构方法

计算蛋白质设计,即设计具有特定结构或功能的蛋白质,它已经成为一种强大的工具,可以促进对进化过程尚未访问的序列或拓扑空间的探索,并发现性能更好的蛋白质。它在膜蛋白设计、酶设计等方面取得了成功。

作为计算蛋白质设计的子任务之一,逆向蛋白质折叠(IPF)的问题是找到可以折叠成给定三维(3D)结构的氨基酸序列的问题,这是非常重要的,因为承载特定功能通常需要获得特定的主链结构为前提。

如何建模和利用残基相互作用一直是各种 IPF 算法的焦点。

图片

图 1:利用残基间特征的不同方法。(来源:论文)

近年来,深度学习已成功应用于蛋白质结构建模和预测。已有研究通过深度学习来解决 IPF。早期的方法通常将蛋白质结构建模为独立残基序列或原子点云,并采用非自回归解码方案,如图 1a 所示。最近的一些研究使用邻近图来表示蛋白质结构,其中残基是节点,残基相互作用直接建模为 edge。通常,使用具有自回归解码方法的掩码编码器-解码器架构(如图 1b 所示)。

最近,ABACUS-R 中提出了类似的解码方案(如图 1c 所示)。该方法假设在解码中心残差时所有相邻残差类型都是已知的。从随机初始序列开始,它根据残差的邻域递归更新残差,直到收敛。然而,事实证明,对先前预测的依赖很容易出现误差累积问题。嘈杂的残基信息被引入上下文中并通过图结构传播,而如果可以使用并利用更多高质量的残基相互作用,则恢复目标残基将更容易且更准确。

蛋白质序列设计模型 ProRefiner

研究人员将上述问题总结为高质量残基相互作用的选择和利用。为了解决这些问题,研究人员提出了蛋白质序列设计模型 ProRefiner。该模型的任务是根据蛋白质结构进行类似 BERT 的序列修复。

ProRefiner 的模型架构是一堆内存高效的全局图注意力层,如图 2 所示。具体来说,注意力机制根据任意两个节点的特征计算它们之间的注意力权重。对于图来说,这需要存储和操作大小等于节点数量的方阵,这忽略了图结构的稀疏性,并将内存复杂度增加到节点数量的二次方,从而带来了可扩展性问题。

图片

图 2:ProRefiner 的模型架构。(来源:论文)

该研究的目标是设计一种针对图量身定制的基于注意力的模型,该模型(1)内存效率高,(2)保持依赖关系的全局视图,(3)完全合并 edge 特征。

双管齐下

实验表明,所提方法在处理整个序列设计和部分序列设计设置方面都是有效的。特别是,在转座子相关转座酶 B 的单点突变设计任务上验证了 ProRefiner,这是部分序列设计的一种特殊情况,其中只能修改一个残基。所提出的 ProRefiner 从模型推荐的 20 个突变体中成功识别出了 6 个基因编辑活性有所改善的变体。

图片

图 3:TnpB 单点突变设计的流程和结果。(来源:论文)

研究人员表示:「我们试图通过提出一种逆向蛋白质折叠的方法,朝着更好地建模和学习蛋白质结构内的体间相互作用迈出一步。」

该研究开发了一种双管齐下的方法,结合了残基选择技术和内存高效的全局图注意模型,它们共同作用以实现高质量残基相互作用的有效选择和利用。

实验表明,所提出的 ProRefiner 能够捕获有意义的残基间键,并在多个蛋白质设计基准上实现高序列恢复。还应用该模型重新设计了 TnpB,并成功发现了六个具有增强编辑活性的突变体。研究结果凸显了该方法在促进功能特性改进的蛋白质设计方面的潜力。

此外,该研究提出的内存高效图注意力模块提供了一种对全局依赖关系至关重要的图结构数据进行建模的有效方法。未来潜在的研究方向可能涉及将该模块应用于其他蛋白质相关任务以及其他生物分子的检测。

论文链接:https://www.nature.com/articles/s41467-023-43166-6

理论逆向蛋白质折叠港中大
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

注意模型技术

注意模型是采用了注意力机制的机器学习模型,注意力机制是在编码器-解码器结构下用于神经机器翻译(NMT)的一种结构,它已经非常快速地扩展到了其它相关任务,例如图像描述和文本摘要等。直观而言,注意力机制通过允许解码器在多个向量中关注它所需要的信息,从而使编码器避免了将输入嵌入为定长向量,因此能保留更多的信息。

推荐文章
暂无评论
暂无评论~