Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

8张RTX3090,效果媲美AlphaFold2,国产蛋白结构预测平台TRFold排名全球第二

2021 年夏天,对于蛋白质结构预测领域来说是一个丰收的季节。7 月 15 日 DeepMind 团队与华盛顿大学 David Baker 团队分别开源了 AlphaFold2 与 RoseTTAFold,这可以说是蛋白预测领域一件里程碑式的事件。

在之后的几个月里,不断有团队使用开源的软件取得了显著成果,比如利用 AlphaFold 解析噬菌体研究蛋白复合体的活化与聚合开发解析蛋白质糖基化新工具等。

那么问题来了,乍看占据舆论中心的都是来自国外的团队,国内团队表现如何呢?

日前,来自中国上海的天壤 X-Lab 团队,其自研的蛋白质结构计算平台TRFold2,在基于国际权威的CASP14蛋白质测试集的评估中获得82.7的成绩(满分100),超过华盛顿大学生物学家 David Baker 团队研发的 RoseTTAFold,仅次于AlphaFold2。

同时,对比 AlphaFold2 的 128 个 TPUv3 核心(相当于 256 块 GPU)算力配比,天壤的算法训练仅用 8 张 RTX3090。在预测约 400 个氨基酸的蛋白链时,AlphaFold2 需要 70 多秒;TRFold 16 秒即可完成,而且还是在只用一张 GPU 的情况下。

图片

图示:参加CASP14比赛团队的部分成绩排名。

这个成绩是目前国内所有公开蛋白质结构预测模型中取得的最好成绩,它标志着我国计算生物学领域的表现已经处于世界第一梯队。

面对团队取得的阶段性进展,天壤创始人薛贵荣博士表示:「我们通过两年半的时间掌握了蛋白质折叠预测的核心技术,并以此参与到国际最前沿的生物医学领域的应用中,希望能够开辟出一条 AI 生物学的应用之路。」

图片

从头搭建一套自研平台,才能深入探索本质

蛋白质结构预测研究具有巨大的科研价值和社会经济价值——蛋白质结构解析可以帮助揭示生命的生物学本质,探究生物体内各类代谢通路,这将加速科学家对于各类疾病的研究;同时可以加速药物发现和药物设计流程,提高药物研发效率;工业生产方面,蛋白结构解析可以帮助优化众多酶的功能,降低生产成本提高生产效率。

AlphaFold2 的开源,适当降低了结构研究对于电镜等高昂设备的依赖性,这将方便更多从事结构研究的科研人员。

然而,在天壤团队看来,开源带来的也并不全是便利,占据自主研发的高地才能避免在未来的科技竞争中卡脖子。

天壤 XLab 团队负责人苗洪江博士告诉机器之心:「AlphaFold2 的开源对我们自己要实现的技术路径带来了挑战和机遇,因为假如没有深入探索过程,就无法对不同的方法优势进行量化,也不能将最有价值的创新进行更大范围的应用。」

「此外这次开源并未公布训练代码,意味着即便下载了它的源代码,也只能对单蛋白结构进行预测而无法根据项目需求进行进一步的优化改进。」

「比起单个蛋白的预测,天壤更关注的是这项技术的未来,所以我们一定需要从头搭建一套自研算法,才能展开后续的工作。」

图片

图示:对于单个蛋白的预测,TRFold 已经可以得到与 AlphaFold2 相媲美的结果。

AlphaFold2 的基础上再往前进一步

在众多解读中,普遍认为 AlphaFold2 分为两大模块,第一大模块主要是基于注意力机制的序列分析,第二大模块是去直接生成三维结构。后者采用端到端的方法,绕过了原来先预测 Contact 和 Distance,而后再去搭建三维模型的多段式预测方式,也被认为是DeepMind 思路巧妙和 AlphaFold2 成功的一大原因。

TRFold 也是基于多个模型,但不同的是,Distance 即距离预测也是 TRFold 中十分重要的部分,TRFold 可以高精度的预测两两氨基酸之间的距离。

「由于我们的项目一直延伸到蛋白质-蛋白质相互作用(PPI)分析,所以我们考虑的不仅是单蛋白质或复合体结构预测,还有更前一步的两个或多个蛋白是否会相互作用的判别。这是目前 PPI 预测任务下的核心部分。」苗洪江博士介绍说。

针对蛋白互作判别选择的问题,天壤初步选取了蛋白质接触面距离来对蛋白相互作用进行判别。

据悉,TRFold中既包含了 End2End 预测三维结构的模型,也包含了专门预测氨基酸残积间距离的模型,同时还包含结构分析优化模型以及专门针对无共进化信息模拟的模型。

图片

图示:TRFold 采用 5000万的参数循环多轨注意力网络,同时支持氨基酸的距离预测和结构预测。

与众多技术相比,TRFold 的最大优势可能还是对算力的节省;毕竟与 AlphaFold2 的 128 个 TPUv3 核心(相当于 256 块 GPU)算力相比,TRFold 算法训练仅用了 8 块 RTX3090;算力消耗仅 AlphaFold2 的 1/32。

图片

同时,TRFold 可以根据不同的情况用不同版本的算法进行模拟训练,有很强的延展性,且用了更小的资源可以更快速生成预测模型。

在新型冠状病毒疫情爆发的初期,CASP 组织者曾发起了一次针对难以实验解析的 COVID-19 蛋白质结构预测,天壤提交的 nsp6-D2 预测结果入选 CASP 官方评选的六个「最具可信度模型」。

图片

图示:天壤提交的 nsp6-D2 预测结果入选 CASP 官方评选的六个「最具可信度模型」。

AI 在基础科学中的巨大潜能,是我们不愿意错过的一道风景

说起天壤,首先会想到智慧城市、智能交通,因此得知 TRFold 取得的成绩时,我们首先问的是天壤进入蛋白质结构预测领域的原因。

「我们长期以来面临的都是此类复杂系统的决策问题,在技术层面已经有了深厚的积累,蛋白质折叠预测虽然是生物学课题,但也属于这个领域,并且体现了AI在基础科学中的巨大潜能,这也是每个立志于基础研发的 AI 从业者的价值取向,我们不愿意错过这道风景。」天壤创始人薛贵荣博士表示。

对于天壤来说,目前的单个蛋白质折叠预测只是一个起点,更加精准的侧链优化、蛋白质的动态分析、蛋白质与其配体(如小分子、DNA、RNA、多肽、蛋白质等)的相互作用等一些列的问题还没有解决,他们接下来的工作重点,将是利用目前的全蛋白质组协同进化分析,建立起蛋白质与蛋白质之间的相互作用的精准链路。

图片

图示:天壤团队对蛋白质探索的未来布局。

苗洪江博士说:「尽管目前我们的预测结果仍低于 AlphaFold2 ,但我们的模型还在不断优化和迭代提高,比如蒸馏数据的加入,网络的扩大,模型间的相互增强等等。另外,我们也在做适用于其他『目标』的模型,以解决像抗体 CDR、蛋白设计、点突变结构等缺少共进化信息的模拟问题。」

一般认为,CASP14 分数达到 90 以上就与实验室的预测结果差别不大,目前  TRFold 基于更小的数据获得了第二名,后续还会继续迭代,达到 90 分以上只是时间问题。

天壤的 TRFold 展现了中国自研蛋白质结构预测算法平台的潜力,而令人高兴的是,在实现科技自立自强的新征程上,如天壤一样越来越多的中国科技公司正涌向这个领域。

天壤创始人薛贵荣表示:结构生物学打开了全新的大门,天壤期待与业界同仁一起,在新一轮生命科学研究中取得突破性的成果,真正为人类社会做出贡献。

【延伸阅读】

当然,天壤也没有忘记老本!天壤在智能围棋、智慧交通领域依旧是扛把子!

此前,天壤联合创始人韩定一,在机器之心知识站做了技术分享《打造城市交通智能决策体系——百万级人口城市规模从限行到不限行》,可点击以下链接观看视频:https://app6ca5octe2206.pc.xiaoe-tech.com/detail/v_616e723ae4b0a2977fe0275e/3

产业蛋白质预测
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~