机器之心编辑部整理

速度提高100万倍,哈佛医学院大神提出可预测蛋白质结构的新型深度模型

蛋白质结构预测是生命科学领域的一大难题。近日,来自哈佛大学医学院的研究人员提出了一种基于氨基酸序列预测蛋白质结构的新方法,准确率可媲美当前最佳方案,但预测速度提升了100万倍。

生命所必需的每一次基础生物学进展几乎都是由蛋白质带来的。蛋白质参与创建细胞和组织并保持着它们的形状;构成维持生命所需化学反应的催化酶;充当分子工厂、转运工具和马达;充当细胞通讯的信号和接收器等等。

蛋白质由很多氨基酸长链组成,通过折叠成精确的 3D 结构来完成无数的任务,这些结构控制着它们与其它分子互动的方式。蛋白质的形状决定了其功能以及它在疾病中的功能紊乱程度。阐明蛋白质的结构是所有分子生物学的核心,更是治疗患者、拯救生命、改变生活的医学发展的核心。

近年来,根据氨基酸序列预测蛋白质折叠结构方面的计算方法已经取得了很大进展。如果能够充分实现,这些方法可能会改变生物医学研究的方方面面。然而,现在的方法在可测定的蛋白质的大小和范围上是有限的。

最近,哈佛大学医学院 Blavatnik 研究所系统生物学家 Mohammed AlQuraishi 发布了一项新的研究,他根据氨基酸序列,利用深度学习实现了任意蛋白质 3D 结构的高效预测。在 4 月 17 日的 Cell Systems 期刊中,Mohammed AlQuraishi 详细介绍了这种通过计算确定蛋白质结构的新方法,利用该方法实现的准确率可媲美当前最佳方案,但速度提高了 100 万倍。

  • 论文:End-to-end differentiable learning of protein structure

  • 论文地址:https://www.biorxiv.org/content/biorxiv/early/2018/08/29/265231.full.pdf

  • 项目地址:https://github.com/aqlaboratory/rgn

原论文表 2:蛋白质结构预测方法的训练和预测速度对比。

如上所示,AlQuraishi 提出的循环几何网络在预测速度上快了 6 到 7 个数量级。其中上表第一行是目前已经建立起来的复杂方法,这些方法严重依赖于模拟和采样。第二行对应于协同演化(co-evolution)的方法,它也会有一个学习过程。最后一行就是作者提出的一种端到端的可微分方法。

「蛋白质折叠是近半个世纪以来生物化学家研究的重要问题之一,此次提出的方法为解决这一问题提供了全新的思路,」AlQuraishi 说道。「现在我们有了一个探索蛋白质折叠的全新方法,我觉得我们现在的研究不过是冰山一角。」

AlQuraishi 研究的特点在于,一名埋头在哈佛医学院和波士顿生物医学社区丰富研究生态系统中的研究人员,居然能够在计算机科学最热门的领域里抗衡谷歌等巨头。——Peter Sorger

说起来简单

虽然成功率高,但利用物理工具来鉴别蛋白质结构的过程既昂贵又耗时,即使是使用现代技术(如低温电子显微镜)同样如此。因此,绝大多数蛋白质结构以及致病突变对这些结构的影响目前仍是未知的。

蛋白质折叠方式的计算方法有可能大大降低确定蛋白质结构的成本和时间。但经过近四十年的不懈努力,这个难题仍未解决。

可视化模拟 AlQuraishi 的蛋白质折叠深度学习方法。模型通过反复预测某个结构(彩色)并将其预测与真实结构(灰色)对比来实现自训练。对数千种已知蛋白质重复此步骤,模型在每次迭代中都会学习并提高自己的准确率

蛋白质由 20 种不同的氨基酸组成。这些氨基酸就像字母表中的字母,组合成单词、句子、段落,产生了无数种可能的文本。然而,与字母不同,氨基酸是位于 3D 空间的物理存在。通常,蛋白质的各个部分在物理上非常接近,但在序列上却相隔很远,因为其氨基酸链形成了环、螺旋、折叠等不同形状。

AlQuraishi 表示,「这个问题引人注目的地方在于它说起来简单:挑一个序列,想办法弄清楚它的形状就可以了。蛋白质从一个非结构化的线开始,必须呈现 3D 形状,线可能折叠成的形状有很多种。许多蛋白质有上千个氨基酸长,其复杂性远远超过人类直觉甚至强大的计算机。」

做起来难

为了应对这一挑战,科学家利用氨基酸的特点,即它会在物理法则的约束下相互作用,从而寻找更具潜力的状态。目前最先进的算法通过超级计算机或众包计算来寻找蛋白质结构,它们基本上都是在模拟极其复杂的氨基酸物理相互作用。为了降低这些方法对大规模计算的需求,它们依赖于将新序列映射到预定义的模板,且这些蛋白质结构模板都是之前通过实验确定的。

其它如 DeepMindAlphaFold 则采用了另一种方法,它利用深度学习进一步预测蛋白质结构。这类方法会分析大量的基因数据,其内在包含了蛋白质的设计蓝图,目前受到了极大的关注。

AlphaFold 是之前非常受关注的一项研究,它利用神经网络来预测氨基酸对之间的距离,以及连接它们的化学键之间的角度。AlphaFold 参加了 CASP 竞赛,它首次参赛就在 98 名参赛者中名列榜首,准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构,而同组比赛中获得第二名的参赛者仅准确预测出了 3 种。

然而,这些 AI 方法并不能仅基于蛋白质的氨基酸序列预测结构。这一点会限制 AlphaFold 等方法的能力,因为在没有先验知识的情况下它们很难决定蛋白质结构,其在演化独特的蛋白质或手工设计新蛋白质上能力有限。

针对这些问题,AlQuraishi 主要从四个核心概念出发构建新的解决方案。首先我们应该要使用循环神经网络编码蛋白质序列;其次通过扭转角度参数化局部蛋白质的结构,从而允许模型在不破坏共价化学性质的情况下对各种结构进行推理;再者,我们还应该通过循环几何单元耦合局部蛋白质结构和它的全局表征;最后,使用一种可微损失函数来捕捉预测结构与实际结构之间的差别。

端到端的可微分学习

为了开发新的方法,AlQuraishi 应用了一种名为端到端的可微分深度学习方法。本质上而言,可微分学习涉及到一种单独的强力数学函数:神经网络,通过神经元的前馈传播与反向传播,可微分学习能逐渐学习到各种「专业知识」。

神经网络这种函数能在极其复杂的特征空间上调整自身,以便精确地学习蛋白质序列与其结构之间的数学关系。AlQuraishi 就构建了一种名为循环几何网络(Recurrent Geometric Network)的深度学习模型,它侧重建模蛋白质折叠的关键特征。

循环几何网络

模型输入一个氨基酸序列和 PSSM(具体位置的评分矩阵)并输出一个 3D 结构。它由三个阶段组成:计算、几何建模和评估——因此将其称为循环几何网络(RGN)。

第一阶段由计算单元组成,对于每个残基位置(residue position),计算单元将关于氨基酸和 PSSM 的信息与来自相邻单元的信息整合。通过将这些单元放在循环双向拓扑结构中(图 2),对每个残基的计算整合了从残基上游和下游一直到 N-和 C-端的信息,覆盖了整个蛋白质。

原论文图 2:循环几何网络主要过程。

第二阶段由几何单元组成,该几何单元输入给定残基的扭转角和由其上游的几何单元产生的部分完成的骨干,并输出由一个残基延伸的新骨干,该骨干被输入至相邻的下游单元。最后的单元输出蛋白质的完整 3D 结构。

在模型训练期间,第三阶段使用基于距离的均方根误差(dRMSD)度量来计算预测结构和实验结构之间的误差。dRMSD 首先计算预测结构中所有原子和实验结构中所有原子的成对距离(分别计算),然后计算这些距离集合之间的均方根。

如上展示了循环几何网络模型如何计算氨基酸之间键的角度以及这些键周围的旋转角,获取这两个信息就可以采集蛋白质结构的几何形状。动画:Mohammed AlQuraishi。

对于每个氨基酸,模型预测连接其与相邻氨基酸的化学键最可能的角度。它还预测这些键周围的旋转角,这影响了蛋白质的任何局部在几何上与整个结构的关系。

这个过程会重复进行,每次计算都需要使用和提炼所有其它氨基酸的相对位置信息。一旦整个结构完成,模型会将预测结果与蛋白质的「标注真值」结构进行比较,以检查其预测准确率

这整个过程在成千上万种已知的蛋白质中重复进行,模型在每次迭代中学习并提升其准确率

新的前景

一旦其模型训练好,AlQuraishi 会测试它的预测能力,它们将该模型与近年来蛋白质结构预测关键评估(CASP)的其它方法进行了比较。CASP 是一个年度实验,它通过已经确定但未公开的蛋白质结构测试各种预测方法的能力。

他发现在没有预先设计的模板时,新模型在预测蛋白质结构方面远远优于其它方法,包括使用协同演化数据的方法。当预定义模板可用于预测时,新模型还是优于最佳方法之外的其它方法。

虽然提升并不大,但这种方法表示了一类新的蛋白质折叠预测方法,它与现有的方法是互补的关系。值得注意的是,新模型的预测速度比现有计算方法快 6 到 7 个数量级。训练模型可能需要数月,但一旦训练完成,预测新蛋白质结构可以在几毫秒内完成。这种加速在于深度网络是一种独立的数学函数,它只需要几千行代码而不是数百万行代码就能完成。

这种极速使得蛋白质预测变得更加简单,以前无法想象的应用也都会慢慢冒出来。AlQuraishi 表示:「新模型还没有立即用于新药开发或设计,因为它的准确度大约在 6 埃(一亿分之一厘米)左右,与解决蛋白质原子结构所需的 1 到 2 埃还有一定距离。」

但是在深度学习快速发展的今天,这种方法将越来越强大,例如如何进一步整合化学和物理知识就值得我们认真探讨。也许以后的新药开发成本会越来越低,医疗费用也会越来越低。

参考链接:https://hms.harvard.edu/news/folding-revolution

理论深度学习结构预测蛋白质哈佛
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

均方根误差技术

平方平均数(Quadratic mean),简称方均根(Root Mean Square,缩写为 RMS),是2次方的广义平均数的表达式,也可叫做2次幂平均数。常用于计算误差

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

推荐文章
暂无评论
暂无评论~