Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

萝卜作者

只需1台CPU跑600多秒,GNN快速有效优化蛋白质模型

前两天,华盛顿大学 Davide Baker 团队开发的 RoseTTAFold和DeepMind 团队开发的 AlphaFold2 源代码公布,并在同一天分别发表在《Science》《Nature》两大期刊上,使得基于深度学习进行蛋白质结构预测再次成为 AI 社区热议的话题。

只需1台CPU跑600多秒,GNN快速有效优化蛋白质模型


说起用深度学习预测蛋白质结构,就不得不提到芝加哥丰田计算技术研究所的许锦波教授,他带领的团队开发的 RaptorX 将 ResNet 应用到蛋白质结构预测,大大地提高了预测精度,被认为是该领域第一个在实验上可行的深度学习方法,激活了蛋白质结构预测这个曾经很长时间进展缓慢的领域。经过不断迭代,最新一代版本已经不再需要共进化信息,并在预测人工设计的蛋白质结构时表现得更好。

随着 GNN 的兴起,再加上图表示更适合蛋白质等生物结构,许教授团队就有了探索基于 GNN 进行蛋白质结构预测的想法。研究发现,在某些情况下,GNN比 ResNet 的模型优化程度更高,可以将预测出的蛋白质三级结构优化成与实际蛋白质更为接近的 3D 模型,其效果跟基于分子动力学的传统方法接近,但速度却是传统方法的几百倍,只需一个 CPU 花上 10 分钟左右就可以完成一个蛋白质模型的优化。

这项最新的研究成果于 7 月 15 日以「Fast and effective proteinmodel refinement using deep graph neural networks」为题发表在杂志《Nature Computational Science》上。

只需1台CPU跑600多秒,GNN快速有效优化蛋白质模型


高精度的蛋白质结构预测有助于在分子水平上理解生物过程。在过去的几年中,蛋白质结构预测有了巨大的进步。然而,一些预测的蛋白质结构模型仍然与它们的天然结构有很大的偏差,这限制了它们在下游应用中的价值。

蛋白质模型优化(Protein model refinement)作为提高蛋白质预测模型质量的最后一步,旨在改进初始模型,生成更高质量的新模型。目前已有一些成功的优化方法,例如:密歇根州立大学的Feig 团队开发的基于分子动力学模拟的模型采样(conformation sampling)方法,华盛顿大学的Baker团队开发的 DeepAccNet,首尔国立大学的Seok 团队开发的 GalaxyRefine2。

尽管这些方法在某些蛋白质上表现良好,但它们都依赖于大量的模型采样,因而需要大量计算资源来完善蛋白质模型,即使是单个蛋白质模型也需要数小时或数天的时间来改进。

许锦波教授团队提出了一种快速有效的模型优化方法——GNNRefine。该方法应用图神经网络(GNN),从初始模型中预测「优化的原子间距离概率分布」,然后根据预测的距离分布重建三维模型。

经过严格的测试,许教授团队的方法具有与 Feig团队和 Baker 团队的方法相当的准确性,但运行速度要快很多。该方法在一个 CPU 上优化一个蛋白质模型,平均耗时不超过 11 分钟;而 Feig 团队的方法在一个 GPU 上优化一个小的蛋白质模型大约需要 16 小时,Baker团队的方法优化一个模型平均需要在 60 个 CPU 上耗时约 30 小时。

研究还表明,如果只允许非常有限的模型采样时,GNN 的性能明显优于 ResNet (卷积残差网络)。

GNNRefine方法

GNNRefine主要包括三个步骤:

  1. 将初始模型表示为图并从初始模型中提取原子、残基和模型的几何特征;
  2. 使用GNN预测图中每条边的优化距离;
  3. 将预测的距离概率转换为距离势能函数,并将其输入 PyRosetta FastRelax中,通过侧链组装和能量最小化生成优化后的模型。

GNNRefine 主要由三个模块组成:一个原子嵌入层、多个消息传递层和一个输出层。

只需1台CPU跑600多秒,GNN快速有效优化蛋白质模型GNNRefine示意图

在CASP13、CASP14测试数据上的性能

GNNRefine 在 CASP13、CASP14 测试模型上都取得了良好的效果,成功优化了多个模型,并且每个模型的优化全程不超过15分钟。

CASP13和CASP14优化目标数据来源:
https://predictioncenter.org/

CASP13:将 GNNRefine 方法与 CASP13 优化类别中人工组的两种方法以及服务器组中的五种方法进行比较,研究表明,使用该方法来优化蛋白质预测模型是非常安全的(也就是说很少把初始模型优化坏了)。

在CASP13优化目标上的性能

CASP14:在 37 个 CASP14 优化目标上对 GNNRefine 方法进行测试,并与人工组和服务器组中排名靠前的方法进行比较。研究表明,CASP14 模型比 CASP13 模型更难改进。但总体来说,该方法在 CASP14 优化目标上比 Feig 团队和 Baker 团队的方法表现稍差(可能因为Feig和Baker团队都用了额外的信息),但比其他方法都要更好。

只需1台CPU跑600多秒,GNN快速有效优化蛋白质模型对所有CASP14优化目标的性能

其中有5 个 CASP 测试模型(3 个 CASP13 模型和 2 个 CASP14 模型), GNNRefine把它们的质量提高了至少10分(ΔGDT-HA ≥10)。

只需1台CPU跑600多秒,GNN快速有效优化蛋白质模型GNNRefine优化的成功示例

未来展望

许锦波团队表示:GNNRefine 方法可以更准确地估计「现有边的距离概率分布」,但无法检测「缺失的边」;因此如果初始蛋白质模型的图形表示中有许多「错误或缺失的边」,则其性能可能会受到影响。然而,优化方法通常用于质量还可以的蛋白质模型,这些模型往往具有很大比例的正确「图边」。

值得一提的是,该方法目前在 AlphaFold2 的模型优化上表现不佳。为了进一步得到高质量的蛋白质模型,除了生成更好的训练模型外,许教授团队还计划通过开发「端到端框架」来改进其方法。具体来说,他们计划将蛋白质的 MSA 作为输入。MSA 中编码的协同进化信息可以帮助 GNNRefine 更准确地预测残基间相互作用,从而导致更好的优化蛋白质模型。同时,还将研究个体蛋白质序列和 MSA的自我监督学习的实用性。

目前,「原子嵌入」对于优化模型并没有太大帮助。研究人员将通过利用原子的化学背景并使用更准确的侧链原子生成训练蛋白质模型来改进它。将来,许教授团队还将使用深度学习直接预测(主链和侧链)原子的 3D 坐标,而不是残基间距离概率分布。这将避免使用能量最小化方法来构建 3D 模型,并有可能提高模型质量。研究人员还将在训练集中添加更多更高质量的 3D 蛋白质模型,以便深度学习可以学习优化高质量的蛋白质模型。

论文链接(点击下方阅读原文,可查看论文原文):https://www.nature.com/articles/s43588-021-00098-9

开源地址:http://raptorx.uchicago.edu/

相关报道:

https://mp.weixin.qq.com/s/tQ0AjDtRKpvsPjy0PceTOg

https://mp.weixin.qq.com/s/kTI73l_w3qBr9dtwbpFQig

如果你对基于深度学习进行蛋白质结构预测感兴趣,可以扫面下方二维码观看许锦波教授的分享,相信你看完之后会对该领域有更加全面的了解。

芝加哥丰田计算技术研究所许锦波:基于深度学习的蛋白质结构预测

理论蛋白质模型CPU许锦波
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

推荐文章
暂无评论
暂无评论~