Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI+生物学:开启结构生物学产研新纪元

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

本文为天壤X-lab负责人苗洪江于「驱动未来的AI技术」系列主题,「AI for Science」专场的分享内容节选。点击进入「机器之心Pro」,查看更多优质内容。


AI开启结构生物学产研新纪元

苗洪江首先分享了X-lab团队在过去几年的研发过程中,对于 AI 在结构生物学领域带来的巨大影响的一些切身的体会。他表示,在 2021 年,AI已经正式开启了生物结构生物学研究的新纪元。

作为第三次 AI 浪潮的见证者和参与者,天壤一直在探索和尝试 AI算法在科学研究中的各种应用。2018 年,天壤自主开发的围棋TRGO 战胜了当时的世界冠军朴廷桓,我们亲身体会到了深度强化学习在整个决策领域的巨大潜力。因此在 2019 年,我们将这种解决复杂系统的能力应用到了交通治理里。我们成功帮助南昌成为全国甚至全世界第一个从限行到不限行的城市,极大地提高了人民的生活便利。

同样在 2019 年,天壤开始尝试运用人工智能的方法来解答生物学的核心问题,历时两年半的时间,终于在 2021 年末,天壤成功开发出了能够快速准确地将蛋白质的结构预测出来的算法TRFold。TRFold算法采取了类似于AlphaFold的底层的transfomer的网络构架。我们通过参数共享、混合精度等一系列的优化方式,将我们的模型成功地在 8 张 RTX 3090 的 GPU 上通过数周即可训练完成。

 图片

苗洪江表示,这个轻量型模型的好处是:在预测的任务上,比如 400 个氨基酸的蛋白质的结构模拟,模型仅仅需要 16 到 17 秒钟,这是远低于大家比较熟悉的AlphaFold2和RoseTTAFold的用时的,但是在预测的结果准确度上是非常相近的。同时,在Benchmark Results on CASP14 targets的六十一个蛋白质中,我们的平均分数达到了 82.7 分的水平,非常接近AlphaFold2的结果,超过了RoseTTAFold。且82.7 只是我们第一阶段基于已知的 PDB 中的结构的训练结果。我们现在正在利用第一批的模型进行大规模的数据蒸馏,扩大我们的训练数据量,从而能够在不久的将来达到 90 分甚至超过AlphaFold2的蛋白质的结构预测准确度。 

天壤是一家人工智能的算法公司,苗洪江表示,很多人看到我们的报道和我们的研究方向之后,会非常好奇,说我为什么我们会在蛋白质结构这个生物学领域的研究放入如此大的时间和精力呢?甚至在过去两年半中,其实我们经历了数十种模型的迭代和尝试,经历了很多次大框架的失败和重新的是训练,但是我们没有放弃,依然在坚持这件可能很多人认为可能是不务正业的事情。

其实这不仅仅是源于我们对于 AI 算法能够在蛋白质结构折叠这所代表的定义明确、数据丰富,而且传统方法束手无策的科学问题上的一个长期的解决这种问题的信心,更是因为我们相信结构生物学在整个生物学研究包括生命科学研究中的非常重要的核心的价值和意义。

苗洪江表示,结构生物学是对大分子的三维空间结构、动态过程以及生物功能研究的一个交叉性学科,在这些大分子之中蛋白质就是最重要的一个,我们可以简单地理解到它是我们生活中生命中所有活动的主要承担者。而每一个蛋白质的序列都是由 20 种常规的氨基酸构成的,它通过折叠到特定的结构来行使它的功能。换句话说,我们如果能够解析蛋白质的结构,我们就可以更好地理解蛋白质的生物功能和它的分子机制,这是我们探索疾病的发病机理开发治疗方案等严重中必不可少的组成部分。

在实验中,蛋白质结构的实验解析常采用X光晶体衍射、核磁共振(NMR)、冷冻电子显微镜(cryo-EM)等方法来进行解析。这些方法的共同问题是器材昂贵、技术复杂、耗时较长。举个例子,像很多蛋白,包括像大家比较熟悉的膜蛋白都是很难结晶的,这也意味着 X 光晶体衍射没有办法对它们进行解析。而目前来讲最火热、也是最近才获得诺贝尔化学奖的冷冻电子显微镜技术,耗材非常昂贵,一部三百千伏的电子显微镜的价格超过 1000 万美金。

 图片

 苗洪江谈到, AI 已经开始彻底改变生物学研究的模式,主要体现在:单个蛋白质结构解析需数月至数年降至数十秒至几分钟;单个蛋白质结构解析需数万至数十万美元(冷冻电镜)降至数元人民币;AI算法快速为近百亿量级的蛋白质序列迅速补齐结构信息,建立人类等多物种的蛋白质微观全局图谱等。这也意味着爆炸式的结构信息的增长将为我们未来的疾病研究和药物发现带来革命性的变化。

另外,我们看到的最明显的一个趋势就是在结构生物学里边,结构生物学研究和产业转化逐步从以湿实验为唯一标准的模式走向干湿结合相互验证、计算主导+实验验证的新模式。例如,为研究抗生素耐药性,美国马里兰大学OsnatHerzberg教授研究组实验解析了噬菌体尾蛋白CAB120的结构,但对比AlphaFold预测结果后发现其XD2的电子密度图循迹中出现误差,并根据预测结构进行了修正。

另外一个方向,我们可以看到AlphaFold、TRFold、RoseTTAFold等AI算法对蛋白质、蛋白质复合体结构的快速、准确模拟,蛋白质组学将不再仅仅是基于基因测序、质谱蛋白质测序分析的大数据定量(Quantitative)研究,而是迈向基于结构的可解释(Explainable)研究阶段。借助AI算法RoseTTAFold和AlphaFold,Baker团队模拟了全酵母蛋白质组830万潜在相互作用对,获得1505高置信度相互作用,包含DNA修复、转录、蛋白质运输、成熟分裂等重要功能,可与湿实验结果互相验证。 

当然在蛋白质结构预测之外,我们天壤其实也在关心和尝试各种 AI 算法,包括像刚才提到的蛋白质结构、蛋白质相互作用、蛋白设计等方面的应用。首先举个例子,我们正在研发的基于 AI 的蛋白质相互作用和复合体结构预测的模型,我们希望能够借助这种模型建立大规模的人体蛋白质相互作用图谱,从而能够帮助我们从微观全局的方向来解析疾病的机理,挖掘可用的蛋白质靶标能够帮助我们解决之前无法治疗的疾病和开发新型的药物。

在去年我们经常回答的一个问题是AlphaFold既然已经开源了,为什么我们的团队还在不断地继续投入研发我们自己的 TRFold算法?这其中之一的原因就是我们在准确预测的基础上,还是希望计算效率能有一个提高,能够完成看似天文级数量需要无穷大的算力支持的问题模拟,现在我们可以继续推进大规模的模拟,其实归根结底的原因也是得益于我们 TRFold快速计算能力和一个分段式的模拟方法。

另外一个方面,我们特别关注蛋白质的从头设计。蛋白质的设计其实本身是合成生物学的中的分支,它在食品、医药、环境和材料等领域都有非常深远的影响。当然从蛋白质从头设计和我们之前理解的蛋白设计可能有所不同,因为蛋白质的从头设计是完全不需要模板,也是不需要天然蛋白质的。我们是完全根据需要的功能设计出能够折叠为指定结构的蛋白质序列。因为蛋白质设计其实就是从功能到结构,再到序列的路线。

那蛋白质设计通常会被大家认为是蛋白质结构预测的一个逆命题。我们发现在蛋白设计过程中,我们的结构预测算法不仅可以用来验证设计的蛋白质序列能否折叠成我们想要的结构,行使它的功能;其实蛋白质结构预测方法的理念可以运用到蛋白设计当中。X-lab正在结合TRFold的复合体预测网络架构,借鉴了在目前 AI领域语言比较常用的像文字和图像补齐的理念,同时预测能够行使功能的目标蛋白质序列和结构。我们可以将一个传统上比较复杂的蛋白设计的问题转化成一个能够快速实现的蛋白质设计问题。

最后,苗洪江总结道,除了蛋白质相互作用和蛋白质设计,天壤也时刻关注基于 AI 算法与实验相结合,包括靶点发现、药物研发等众多领域。在不久的将来,我们希望以现在的 AI 发展和领域应用,根据个体的全局蛋白质微环境为依据的个体医疗将成为现实。

总体来说,根据我们研究的亲身经历,生物学产业研发已经迎来了新的拐点, AI计算已经开始逐渐引领了新纪元。希望大家和我们一起来拥抱这个时代,一起推动 AI 在整个生物学研究领域和产业落地的快速发展。


产业
暂无评论
暂无评论~