在过去的几年里,DeepMind公司开发的人工智能AlphaGo已经在国际象棋和围棋比赛中取得了超越人类的表现。而如今,DeepMind又向推动和加速新科学发现上迈出了重要的一步。今日,DeepMind宣布推出全新的AlphaFold系统,能够预测并生成蛋白质的3D结构。这一系统在周日进行的国际蛋白质结构预测竞赛(CASP)上击败了其余的参会选手。
我们都知道,蛋白质是维持我们生命所必需的庞大而复杂的物质。我们身体的几乎所有功能,例如收缩肌肉、感知光线或将食物转化成能量等,都需要一种或多种蛋白质来完成。而蛋白质具体能做什么就要取决于它独特的3D结构了。
然而,纯粹从其基因序列中找出蛋白质的3D结构是一项非常具有挑战性的复杂任务。由于我们的DNA通常只包含蛋白质中氨基酸残基的序列信息,而这些氨基酸残基形成的长链将会折叠成错综复杂的3D结构。这就是所谓的“蛋白质折叠”问题。而蛋白质越大,需要考虑的氨基酸之间相互作用就越多,对其结构的建模过程就会更加复杂和困难。
▲每一个蛋白质都拥有错综复杂的3D结构(图片来源:DeepMind blog)
错误折叠的蛋白质有可能引发阿兹海默病、帕金森病、亨廷顿舞蹈病和囊性纤维化等疾病的发生。因此,准确预测蛋白质的结构,对于理解其在人体内的作用,以及对上述疾病进行诊断和治疗是非常重要的。
在过去的五十年中,科学家们已经能够利用冷冻电子显微镜、核磁共振或 X 射线晶体学等实验技术在实验室中确定蛋白质的形状,但每种方法都依赖于大量的试错,这可能需要花上好几年时间,而预测每个结构也要花费数万美元。幸运的是,得益于基因测序成本的快速降低,基因组学领域的数据变得丰富。因此,科学家们开始利用AI技术开发深度学习算法,在基因组学数据的基础上对蛋白质结构进行预测。在此基础上,AlphaFold诞生了。和以往方法不一样的是,AlphaFold并未使用已经明确结构的蛋白质3D模型作为模板,而是从头开始探索预测方法。
DeepMind团队使用的方法都以深度神经网络为基础,来从基因序列中预测蛋白质的两种物理性质:氨基酸对之间的距离及连接这些氨基酸的化学键之间的角度。首先,研究小组训练了一个深度神经网络,来预测蛋白质中每对氨基酸残基之间距离的分布情况。然后,研究人员将这些数值转化为评分,来对蛋白质结构的精确程度进行评估。同时,研究人员还另外训练了一个神经网络,利用这些距离数值来评估预测结构与真实结构的接近程度。
如果你以为这就是AlphaFold能做的全部事情,那可就大错特错了。事实上,DeepMind的研究人员在这些评分函数的基础上,还使用了两种全新的方式来优化蛋白质结构评分:他们使用了一个生成神经网络,不断生成新的蛋白质片段来反复替换一段旧的蛋白质结构,这样一来,蛋白质结构的评分就被不断提高了。另外,研究人员还使用了一种名为梯度下降的方式来让AlphaFold预测的结构变得高度精确。梯度下降是一种机器学习中常用的数学技术,用来实现渐进式的细微改进。研究人员将这项技术用于整个蛋白质链,而不是结构中组装前必须分开折叠的片段,降低了预测过程的复杂性。
AlphaFold的实际表现也非常强劲:在比赛中,AlphaFold 在 98 名参赛者中名列榜首,预测了 43 种蛋白质中 的25 种最准确结构,而同一类别的第二名参赛队伍只预测出了43 种中的 3 种。
研究人员表示,AlphaFold的成功表明了机器学习系统能够整合多种信息来源,从而帮助科学家们快速为复杂问题提出创造性的解决方案。他们在博客中写道:“正如AI通过AlphaGo和AlphaZero这样的系统,能够帮助人们掌握复杂的游戏一样,我们同样希望有一天,AI取得的突破也能帮助我们掌握基本的科学问题。”
研究人员还表示,这项研究能够帮助科学家们更有效地设计出治疗疾病的新方法,能够在药物发现的过程中开发出新的潜力,同时也降低了实验相关的成本,有望改善全世界数百万患者的生活质量。
参考资料:
[1] AlphaFold: Using AI for scientific discovery. Retrieved December 3, 2018, from https://deepmind.com/blog/alphafold/
[2] Google's DeepMind predicts 3D shapes of proteins. Retrieved December 3, 2018, from https://www.theguardian.com/science/2018/dec/02/google-deepminds-ai-program-alphafold-predicts-3d-shapes-of-proteins