Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

文龙作者

无需「协同进化」信息,芝加哥许锦波团队最新研究登上Nature子刊

给你几幅几何图形的图片,让你推断出下一张图片的样式……我们应该都做过类似的图形推理行测题,这类任务也是深度学习十分擅长的。类似地,如果有了氨基酸序列和蛋白质结构一一对应的模板,计算机能够以很高地准确率预测出与模板相近的蛋白质的结构。但是,如果蛋白质序列与模板相差较大呢?

最近,来自芝加哥丰田计算技术研究所的许锦波教授团队向我们展示了他们的最新研究。通过使用表现较好的 RseNet (卷积残差神经网络),在不使用协同进化(co-evolution)信息的条件下,依然可以保持较高的蛋白质结构预测水平,并在预测人工设计的蛋白质的结构时表现得更好。这一发现对蛋白质工程和蛋白质设计都具有重要意义。
这项研究于5月20日以 Improved protein structure prediction by deep learning irrespective of co-evolution information 为题发表在杂志《自然·机器智能》(Nature Machine Intelligence)上。

图片

蛋白质结构预测长期以来一直是生物化学中一个核心的问题,对生命科学和医学带来巨大的好处。通过氨基酸序列准确预测出蛋白质结构可以极大地加快了解细胞的组成,并使更快、更先进的药物发现成为可能。
「协同进化(co-evolution)」是指同一蛋白质的两个残基同时突变。深度学习在结构预测中的成功通常归因于其对协同进化信息的利用,特别是通过直接耦合方法(如 EVfold,GREMLIN 和 CCMpred)产生的协同进化信息。但是,蛋白质结构数据的体量异常庞大,只有一部分具有较深的蛋白质的多重序列联配(MSA)。并且,在自然界中,蛋白质在折叠时并不知道自己的序列同源物。
ResNet 是深度学习中卷积神经网络的一种,即使是相对较浅的 ResNet 在蛋白质结构预测中也有良好的表现。因此,许教授团队基于先前的工作研究了 ResNet 在人工设计的蛋白质和天然蛋白质上的表现如何,以及其对协同进化信号的形式和丰度的依赖性。
图片沿用先前 CASP13 竞赛中所使用的 ResNet 框架。(来源:论文)
结果显示,经过序列图谱训练的 ResNet 可以预测 CASP13 数据集中一半以上的蛋白质结构和所有人工设计的蛋白质的正确折叠结构。这表明了 ResNet 不仅限于对协同进化信号的去噪,还可以从实验蛋白质结构中学习有关蛋白质折叠的重要信息。
图片不同的ResNet模型在32个CASP13 FM目标上生成的第一模型和最佳模型的平均质量(TMscore)。(来源:论文)
图片ResNet在21种人工设计的蛋白质上的平均建模准确性。(来源:论文)

蛋白质的结构问题

「结构决定功能。」——这是分子生物学的公理。蛋白质是生命的基础,负责细胞内部发生的大部分事情。蛋白质的工作方式和作用取决于其3D形状。几十年来,实验室实验一直是获得良好蛋白质结构的主要方法。在过去的十年中,cryo-EM 已成为许多结构生物学实验室的首选工具。
长期以来,科学家一直想知道一串蛋白质的氨基酸序列如何折叠出最终有着许多曲折的形状。根据1965年由实验得出的蛋白质「自组装学说」,氨基酸序列确定其空间构象,为蛋白质结构预测提供了可行性。但在1980年代和1990年代早期使用计算机预测蛋白质结构的尝试效果不佳。
因此,马里兰大学计算生物学家 John Moult 于1994年与他人共同创立了 CASP 竞赛,致力于改进精确预测蛋白质结构的计算方法。每两年一次的 CASP 被誉为蛋白质结构预测的奥林匹克竞赛,每一届都会提供大约100条未知结构的蛋白质序列,让所有参赛者进行结构预测。论文中用到的数据是2018年的 CASP 13。

需要绕开的 CCMpred 和绕不开的 AlphaFold 2

在分析研究还可以改进的地方时,许教授指出:「当前,我们的 ResNet 将 CCMpred 输出作为输入,因此继承了 CCMpred 产生的一些错误。」
CCMpred 是用于预测残基间距离的传统统计学模型,它假设目标蛋白质序列由一个马尔科夫随机场模型(MRF)产生,进而用两体项表征残基间共进化程度。但这随之带来的就是「信息丢失」,尤其是对于那些有着较浅 MSA 的蛋白质。
实际上,去年轰动一时的 AlphaFold 2 就绕过了统计学模型,通过使用类似Transformer的网络,直接从 MSA 预测原子 3D 坐标并在几乎整个蛋白质数据库上进行训练,已经取得了 0.9 的惊人成果。Moult 高度称赞了这项工作:「从某种意义上说,问题已经解决。」
之所以说是「某种意义上」,是因为 AlphaFold 2 可以解决的是单结构域的蛋白质结构预测问题。但是,自然界中一个功能蛋白质链往往包含多个结构域,这些结构域之间存在着复杂的相互作用。此外, AlphaFold 2 还需要手工进行。能否真正实现全自动,或者算得足够快,让很多人都能用上,还需要进一步探索。
AlphaFold 2 这份令人震惊的答卷实际上也要归功于先前无数科研工作者的工作,但蛋白质预测的道路还远远没有结束,相信在更多的研究人员的努力下,还会有下一个奇迹。

论文链接:https://doi.org/10.1038/s42256-021-00348-5

参考内容:
https://doi.org/10.1002/prot.25810
https://doi.org/10.1038/d41586-020-03348-4
http://bitjoy.net/2019/05/25/
https://mp.weixin.qq.com/s/Prlqzyo3fPoCCkQquh85xg
理论蛋白质结构预测深度学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~