Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

凯霞作者

百度何径舟:预训练打破数据壁垒,助力药物研发

最近,在首届中国生物计算大会「生物计算与新算法」论坛上,百度自然语言处理部总监,螺旋桨PaddleHelix生物计算平台负责人何径舟进行了题为「大规模预训练技术与药物研发」的主题报告。

图片何径舟(来源:生物计算大会)

作为AI的研发者,何径舟从AI在生物医药行业的新发展和新机遇,最新前沿进展,以及助力生物医药行业进行了分享。指出AI在药物研发有巨大潜力,预训练利用无标注数据打破了AI的数据壁垒对原子、氨基酸和氨基酸,碱基和碱基之间的关系进行更深度刻画,能够大幅提升AI生产效率,降低药物研发生产门槛。

从预训练的技术来说,不管是做生物计算还是AI落地都处于早期的阶段。随着算法和算力的不断演进,有很大的空间去做。相信AI技术能够在生物领域取得进展。

生物医药行业的新发展和新机遇

首先站在AI从业人员的角度,来看待生物医药行业所面临的新发展和新机遇。

过去几十年中,全球生物医药规模持续增长,但是医药研发的效率不断下降,研发一款新药投入的成本和时间越来越呈指数级的增长。这也是为什么整个行业在寻找什么样的技术能解决这样的问题。

我国作为第二大医药市场,研发投入远低于欧美,研发投入占比不足。2015年开始,国家出台一系列政策;2018年香港港交所开放了金融政策的机会,让没有营收的药企去上市;人才方面,通过人才计划让人才回归;以及医保扩容,带来收入的提升。这些因素使得我们获得创新药和生物医药技术探索的积极性。大家对AI越来越重视。

AI在很多生物医药环节中均已证明有较高的价值,特别是药物发现和临床前研究,像靶点发现、化合物合成、晶型预测等,这些领域证实了AI可以带来很多的价值。但从AI角度看,这些探索都还处于早期阶段,仍有大量算法、算力上的问题需要攻克。 

百度在这方面投入了大量的精力,去年底开发了螺旋桨PaddleHelix——生物计算平台的开源工具。这融合了百度多年在AI算力和算法的积累,希望提出一整套解决方案,包括药企和合作伙伴,以及对生物医药感兴趣的同仁提供在应用场景、药物研发、疫苗设计和精准医疗方面的能力整合。

预训练技术的发展和生物计算领域的应用

预训练技术还是一个非常新的概念,从诞生到现在可能也就是七八年的时间,但是在AI很多的领域,通过预训练技术都带来了非常大的效果提升,可以说是革命性变革。

预训练的概念在自然语言领域使用最多,从广义上来讲,是指先在较大规模的数据上对模型训练一波,然后再在具体的下游任务数据中微调,使得效果超出原有领域定义模型的能力。

预训练的大体优势体现在三个方面:一是充分利用大规模数据,解决了AI中数据壁垒问题;二是大幅提升AI生产效率;三是降低AI应用门槛。

预训练模型在很多领域取得了进展和突破,尤其是自然语言处理领域,在没有预训练模型前,很多的效果无法达到人的水平。但是加入了预训练通用的语言理解数据集和权威的榜单GLUB榜上,加上预训练模型,不管是W/O还是BERT的模型都超出了人的水准。

除了自然语言,预训练也向语音、多模态进行拓展,包括跨模态理解也取得了显著进展。

预训练已在很多场景上落地,比如搜索引擎,百度和Google大量应用预训练技术,提升了搜索效果。还有翻译、语音助手等,预训练都带来了很大效果提升。

回顾整个预训练的发展过程,最早是从自然语言处理来提出的。实际上2015年在ResNet上就提出了预训练的机制,2018年ELMo提出了各种预训练的技术,到2019年BERT、ERNIE和飞桨,2020年GPT—3几乎推到了实用的阶段。

最近这段时间,整个预训练所呈现的趋势是超大规模的模型,千亿级别甚至是万亿级别的规模不断地被训练出来。多模态的场景像语音、语言和联合视觉的场景,还有跨领域,比如生物计算,也可以通过生物的数据来使用预训练技术带来能力的提升。

生物计算中怎样做预训练,预训练的最大优势是大量的无标注无监督数据。一方面,在生物计算领域中,能够拿到高质量的数据是有限的。比如成药性预测,或蛋白质和靶点结合和DPI的数据来看,也就就几千,最多十几万的规模,所有这些数据的规模远达不到成熟利用AI的领域。

另一方面,在已经发现的蛋白质和化合物的无监督数据规模还是非常大的,都达到了上亿级别,「这启发了我们通过预训练技术,将无标注的数据集合起来。因此,提出通过自监督、多任务训练把这些数据利用起来,使得我们充分将AI用于药物研发和药物设计领域。」何径舟说。

做预训练时需要解决的是处理对象的问题,常见的化合物、蛋白质、组学数据、基因学和表型等都是可以作为处理对象的。有一些可以通过AI现有的方法直接做迁移,比如蛋白质和化合物,常见的是通过化学式和蛋白质多肽序列的建模,更为复杂的是2D分子的图形表示。有一些问题无法通过最简单的结构进行表示,需要用到空间的结构和3D结构更高维度的建模,比如3D Transformer 3D、3D CNN、Topology Network等。

PaddleHelix提出了3D结构的更多任务,比如键角预测、键长的预测和空间距离预测等。因为多目标任务所在,也采用了多任务融合,来增强建模的效果。「在化合物的整个表征过程中,我们往往以原子作为节点,边作为化学键的表征,我们尝试用原子和化学键这样的异构图作为表征建模,这使得我们在化合物的表征上走多了一步,获得了更好效果的建模。」何径舟说。「在蛋白质上,我们将蛋白质的空间结构信息引入建模结构中,提出基于Contact  Map  Prediction(空间构象预测),加强蛋白质建模的效果。」

做到了这些模型的建模,然后就想到应用。常见的DTI的预测,将化合物和蛋白质的表示输入双塔预测模型,直接做化合物和蛋白质的预测,同时将官能团、分子指纹等化合物的信息去做ADMET的预测,也达到了效果。

成果和展望

PaddleHelix在预训练方向基于化合物的表示模型——ChemRL模型,是3D的建模以及键长、键角、空间距离预测等,通过与前人工作对比,不论是带预训练还是不带预训练都有提升,特别是带预训练的在整体多个任务中有提升,但是并不是每个任务都能达到最好的效果。对于这些模型是否在实际的任务中有效果。将预训练模型进行基于化合物表示的Sequence—based DTI模型,结果在多个维度上都能达到最好。蛋白的角度上,通过引入预训练技术,比之前也有显著提升。

同时,在更加公开的场合做了评比和验证。基于化合物和预训练的模型参加了公开的榜单,3月份参加了一个OGB的评比,在这个榜单中两个任务,一个是Molhiv和Molpcba。(HIV数据集关注不同化合物是否能够抑制HIV病毒在细胞内的复制,PCBA数据集关注不同化合物针对100多种疾病靶点的有效性。)

通过引入预训练任务,都达到了榜单榜首的位置。这背后离不开飞桨图学习框架和螺旋桨的支持。

图片百度登顶OGB两项榜单第一(来源:www.163.com)

图片螺旋桨PaddleHelix生物计算平台(来源:www.paddlepaddle.org.cn)

从预训练的技术来说,不管是做生物计算还是AI落地都处于早期的阶段。随着算法和算力的不断演进,仍然有很大的空间去做。

何径舟表示:「我们认为道路艰难而且很曲折,目前取得的成果只是起了头。我们认为目前还有一些技术点需要攻克和研究。」

第一,生物计算领域和自然语言处理的领域不同,要解决很多的联系问题。这个联系分内和外,一种是内部的层次。像很多的蛋白质、化合物,包括未来解决的RNA和DNA和生物表征、基因型、表征型等,都是解决原子、氨基酸和氨基酸、碱基和碱基之间的关系,这种关系的刻画不够,需要更多的信息对他们深入理解。第二种是外部联系,对于单独的蛋白质和化合物的建模不够,我们更要解决的是蛋白质和化合物,以及生物表征之间更多地联系,能否通过跨外部联系的建模,这是预训练的难关。

第二个是充分利用领域信息。我们很多人都有先入为主的认识,觉得AI进入会大杀四方,但是越进入信心越破。任何领域的研究都是循序渐进的过程,就像我提到的在这一基础上,引入键长、键角和空间信息的引入,也是对生物信息的很多知识学习了以后才会得到的教训和经验。但是这之后确实会为公司带来大的提升。

何径舟表示:「未来我们相信AI技术将在生物领域取得重大进展,我们将回馈给社区和广大的合作伙伴。」

产业药物研发中国生物计算大会
相关数据
自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

百度机构

百度是全球领先的人工智能平台型公司。百度大脑是中国领先的“软硬一体AI大生产平台”,是百度AI的集大成,对外全方位输出超过270多项核心AI能力,服务230万开发者。飞桨是中国首个全面开源开放、功能完备的产业级深度学习平台,是中国自主研发的“智能时代的操作系统”。百度智能云是百度AI To B 业务的重要承载者和输出者,是产业智能化领导者。小度助手是中国领先的对话式人工智能操作系统,拥有中国市场最繁荣、开放的对话式人工智能生态,今年6月,小度助手语音交互次数超过58亿次。作为全球领先的、最活跃的自动驾驶开放平台,百度Apollo代表中国最强自动驾驶实力,被知名研究公司Navigant Research列为全球四大自动驾驶领域领导者之一。目前聚焦在以自动驾驶、汽车智能化、智能交通为核心的三大赛道。自动驾驶技术方面,超过十项中国第一,实力领跑行业。智能交通方面,百度 “ACE交通引擎”是全球首个车路行融合的全栈式智能交通解决方案。

https://www.baidu.com/
ELMo技术

ELMO 是“Embedding from Language Models”的简称, ELMO 本身是个根据当前上下文对 Word Embedding 动态调整的思路。ELMO 采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练;第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的 Word Embedding 作为新特征补充到下游任务中。

推荐文章
暂无评论
暂无评论~