比生物界“AlphaGo”更厉害的模型来了?可从氨基酸链片段直接预测蛋白质功能!

就在几个月前,DeepMind推出了AlphaFold系统,这个被称为生物界“AlphaGo”的系统能够预测并生成蛋白质3D结构。而近日,来自MIT的研究人员开发了一个新的研究模型,能够直接预测氨基酸链片段是如何决定蛋白质功能的。这一发现可以帮助研究人员设计和测试新的蛋白质,从而用于药物研发和生物学研究。

我们都知道,蛋白质是维持我们生命所必需的庞大而复杂的物质。蛋白质具体能完成什么样的功能,主要取决于它独特的三维结构。因此了解蛋白质的结构,对于预测其对某些药物的反应来说,是一个非常重要的环节。

▲每一个蛋白质都拥有错综复杂的三维结构(图片来源:123RF)

然而,尽管有了数十年的研究和多种成像技术的辅助,我们仍然只了解到了无数蛋白质结构中的很小一部分,还有很多未知结构的蛋白质功能尚未揭晓。针对这一情况,来自MIT的研究人员开发出了一种方法,“学习”了蛋白质序列中每个氨基酸位置上容易计算的表征。随后,研究人员将这些表征输入机器学习模型,让模型直接预测单个氨基酸片段的功能,而无需任何蛋白质结构的数据

首先,研究人员使用了来自蛋白质结构分类数据库(SCOP)的约22000种蛋白质,将这些蛋白质按照结构和氨基酸序列的相似性进行分类,并对机器学习模型进行训练。对于每一对蛋白质,研究人员都会根据其SCOP类别计算出一个结构相似性评分。然后,研究人员将随机的蛋白质结构对及其氨基酸序列输入机器学习模型,通过编码器将它们转换成数值表示出来,称为嵌入(embedding)。每个嵌入都包含了一对氨基酸序列的相似性信息。

▲该模型的示意图(图片来源:arxiv.org)

该模型将两个嵌入对齐,然后计算出相似度评分,以预测其代表的蛋白质三维结构的相似性。然后,计算机会将这一评分与真实的SCOP相似性评分进行比较,并向编码器发送反馈信号。如果模型的预测分数与真实分数相差较远,则会进行一定的调整。

同时,该模型预测了每次嵌入的“接触图”(contact map),即每个氨基酸与该蛋白质中其他氨基酸的距离,并将其预测的接触图与来自SCOP的已知接触图进行比较,然后向编码器发送反馈信号。这一步骤有助于模型更好地明确氨基酸在蛋白质结构中的确切位置,从而进一步了解每个氨基酸的功能。

对于某个氨基酸链,该模型可以为三维结构中的每个氨基酸位置生成一个嵌入。然后,机器学习模型可以使用这些序列嵌入,根据其预测的三维结构接触图,来准确预测每个氨基酸的功能。在一个应用实例中,研究人员使用该模型预测有哪些蛋白质可以通过细胞膜,其预测结果比现有的先进模型还要更加准确

接下来,研究人员计划将该模型应用到更多的预测任务中,例如弄清楚哪些序列片段可以与小分子结合,这对于药物研发工作来说是至关重要的。研究人员表示,这项研究最终将可以应用于人类健康和药物基因组学,因为它有助于检测破坏蛋白质结构的有害突变。

参考资料:

[1] Bepler, et al., (2019). Learning protein sequence embeddings using information from structure. ICLR 2019, arXiv:1902.08661

[2] MIT CSAIL’s AI predicts a protein’s function from chains of amino acids. Retrieved March 26, 2019, from https://venturebeat.com/2019/03/22/mit-csails-ai-predicts-a-proteins-function-from-chains-of-amino-acids/

[3] Model learns how individual amino acids determine protein function. Retrieved March 26, 2019, from http://news.mit.edu/2019/machine-learning-amino-acids-protein-function-0322

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业AlphaFold蛋白质机器学习MIT
3
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

分类数据技术

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。 有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

推荐文章
暂无评论
暂无评论~