Matthew Huston作者nature.com来源

进展不断!生物界「AlphaGo」们挑战蛋白质折叠问题

由于新的人工智能方法的出现,破解生物学最大挑战之一“从氨基酸序列预测蛋白质的三维结构”的“竞赛”正在加剧。任何给定的蛋白质能做什么,取决于它独特的3D结构。所以,能精确预测蛋白质的3D结构意义非凡。

▲ 预测蛋白质3D结构模型示意

(图片来源:参考资料[2])

去年年底,谷歌DeepMind推出了一种名为AlphaFold(一个用人工智能加速科学发现的系统,它基于蛋白质的基因序列,就能预测蛋白质的3D结构,结果比以前的任何模型都要精确)的算法,它将该领域出现的两种技术结合起来,并在蛋白质结构预测方面以惊人的优势击败了当时已存在的所有算法。今年4月,一位美国研究人员展示一种与以往完全不同的算法,他声称,新AI系统在预测蛋白质3D结构方面将比DeepMind AlphaFold快100万倍。

不管是Alphafold还是新的AI系统,对于生物学家们来说,他们更关心的是:当两种方法都使用人工智能技术时,深度学习如何更好应用于预测蛋白质的排列并最终决定蛋白质的功能。目前已知使用AI比现有的实验室技术(如x射线晶体衍射)更便捷高效,具体体现如下:

  • 首先能帮助科学家更好地理解蛋白质在人体内的作用。对于诊断和治疗由蛋白质错误折叠引起的疾病,比如阿尔茨海默氏症、帕金森氏症、亨廷顿氏症等,起到至关重要的作用;

  • 还可以提高人们对身体工作原理的认识,促进新的疾病疗法诞生,降低新药研发成本;

  • 另外,AI有助于更好地设计蛋白质,比如推动可生物降解酶的进步,帮助人们控制像类似于塑料这样的污染物。

“目前该领域的研究结果值得期待,”John Moult说。他是马里兰大学帕克分校的生物学家也是CASP(“蛋白质结构预测奥运会”)比赛的创始人。

Mohammed AlQuraishi的创新优化方法

最新算法的创造者,是来自哈佛医学院的生物学家 Mohammed AlQuraishi,他尚未直接将他的算法所能预测的精度与AlphaFold相比。AlQuraishi承认,AlphaFold基于结构生物学中常用的技术——用新的蛋白质片段反复替换蛋白质结构的片段,进而训练了一个生成神经网络来发明新的片段,用来不断提高蛋白质结构的评分。在这一技术上AlphaFold预测精确性的确要高得多。但他表示,由于他的算法使用相关函数来计算蛋白质结构,计算过程只需一步,而不是像AlphaFold那样分两步完成。所以新技术预测蛋白质结构的时间只需几毫秒,而不是几小时或几天。

科学界表示:AlQuraishi的新技术具有前瞻性。该新技术的创造建立在不断进步的深度学习理论以及他发明的一些新技术的基础上。在未来,当他的创新之举与其他人思想、研究结合起来时,可更进一步推动蛋白质折叠领域的研究和发展。

AlQuraishi新系统的核心是人工神经网络。它提供了有关氨基酸序列如何映射到蛋白质结构的已知数据,然后进行自主学习从不熟悉的序列再产生新的蛋白质结构。他的系统的新颖部分在于它能够端到端地直接创建映射; 而其他系统使用神经网络,需要先预测结构的某些特征,然后再用另一种算法费力地寻找包含这些特征的看似合理的蛋白质结构。目前,AlQuraishi的AI系统还需要几个月的时间去训练,一旦训练测试结束,这个新AI几乎可以立即将任何序列转换为蛋白质结构。

研究者把这种新的神经网络方法称为“循环几何网络”(geometry network),该方法基于某段结构之前和之后的序列信息,来预测其中某一段的结构。这类似于人们在短文中对一个或几个关键词的理解会受到上下文语境的影响,对于整体文章的理解反过来也会受到一个或几个关键词汇的影响。

但由于技术上的难度,AlQuraishi的新系统在CASP13上的表现并不是特比好,他公开了该系统的研究细节并在Github上公开了源代码,希望未来有更多人参与这个项目,获得更大的进展和突破。

DeepMind方案:基于深度神经网络

AlphaFold在CASP13中变现优异,据悉,它预测蛋白质结构的目标指标比同类参赛的AI系统高出15%

AlphaFold分两步完成对蛋白质结构的预测。与竞赛中使用其他方法的AI系统一样,它从多序列比对开始。AlphaFold依赖深度神经网络,需要训练深度神经网络从基因序列中预测蛋白质的两种特性:1) 成对的氨基酸之间的距离;2) 连接这些氨基酸的化学键之间的角度

接着DeepMind训练一个神经网络来预测蛋白质中每对残基之间的距离分布。然后,将这些概率组合成一个分数。他们还训练了一个单独的神经网络,该网络使用汇总了的所有距离分布来评估预测结构与标准结构的接近程度。使用这些评分函数,能够找到与他们的预测相匹配的结构。

图片来源: 参考资料[2]

DeepMind的第一种方法建立在结构生物学常用的技术上,并用新的蛋白质片段反复替换蛋白质结构的片段。他们训练出了一种生成神经网络来构建新片段,以此来不断提升预测蛋白质结构的准确度。

但是预测的精确距离和角度可能在物理上是不可能的。因此,AlphaFold使用第二步:通过梯度下降法优化得分(这是机器学习中常用的一种数学技术)可以进行小的、增量的改进,从而得到高精度的结构。

图片来源: 参考资料[2]

未来发展方向

DeepMind目前尚未公布AlphaFold的所有细节,但其他团队已开始采用DeepMind和CASP13上其他领先团队所展示的先进策略。密苏里大学(University of Missouri)的计算机科学家Jianlin Cheng表示,他将进一步优化自己的深层神经网络,使其具备某些AlphaFold的特征,比如,在每对残基距离预测阶段向神经网络添加更多层。拥有更多层通常允许网络更深入地学习、处理信息,深度学习也因此得名。

AlphaFold研究团队成员还表示,不畏竞争,协同发展,AI存在的目的本是为了造福人类。所以他们对于未来类似成熟的、新的系统的应用持乐观以及期盼的态度。

Moult表示,关于深度学习如何应用于蛋白质折叠领域的研究是CASP13的讨论热点。未来不断的研究,AI可在更多方面辅助科学家,比如,精确近似结构的预测、算法在蛋白质折叠预测方面的自信程度、蛋白质间模型的相互作用等。虽然目前所取得的成就还无法广泛应用于药物设计,但蛋白质结构预测精度的提高已可以用于:了解突变蛋白如何导致疾病或了解蛋白质的哪一部分可转化并用于免疫治疗。

参考资料:

[1] AIprotein-folding algorithms solve structures faster than ever, Jul 22 2019, 

from https://www.nature.com/articles/d41586-019-01357-6

[2]http://www.sohu.com/a/280762498_505803

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业深度学习智能机器人DeepMind蛋白质AlphaGo
1
相关数据
来也机构

「来也」是国内领先的人工智能交互平台,由常春藤盟校(Ivy League)归国博士和MBA团队发起,核心技术涵盖自然语言处理(NLP)、多轮对话控制和个性化推荐系统等。公司已获得数十项专利和国家高新技术企业认证。 来也的愿景是通过AI赋能,让每个人拥有助理。C 端产品小来是智能化的在线助理,通过业内创新的AI+Hi模式,提供日程、打车、咖啡、差旅和个性化查询等三十余项技能(覆盖400w用户和数十万服务者),让用户用自然语言发起需求并得到高效的满足。B端品牌吾来输出知识型的交互机器人和智能客户沟通系统,帮助各领域企业客户打造行业助理。目前已经在母婴,商旅,金融和汽车等行业的标杆企业实现商业化落地。

https://www.laiye.com/
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~