Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

以大模型加速新药研发,成本降低70%:一家大厂的「云端」实战

最近几年,AI 加持下的新药研发成为被寄予厚望的赛道之一。


从流程上看,药物研发分为药物发现、临床前研究、临床研究、审批与上市四个阶段。医药界有一个「双十定律」的说法 —— 即需要超过 10 年时间、10 亿美元的成本,才有可能成功研发出一款新药。即使如此,也只有约 10% 新药能被批准进入临床期。

目前,AI 技术的参与主要集中于药物发现阶段。挑战在于,虽然 AI 技术加快了一部分工作的推进速度,但 AI 技术与药物研发的 “联姻” 并不是一蹴而就的,囿于算法低效、数据割裂、数据安全、算力瓶颈等挑战,药物研发仍然是一项高风险、长周期、高成本的工作。

鉴于「AI 新药研发」还处于待普及阶段,学界和业界都在探索一种更好的技术落地模式。数据、算法、算力,并列为人工智能技术发展的三大要素,也在某种程度上决定了 AI 新药研发能够以何种速度走到最后一步。研发团队需要具备的条件很多:大量数据资源、充足的算力以及强大的技术积累。在这样的情况下,在数据、算法、算力三方面均有深厚实力的大厂似乎更能扛起这份责任。

路漫漫其修远兮,究竟该如何解决遇到的挑战?

盘古药物分子大模型,为新药研发提质增效

对于西安交大一附院的刘冰教授来说,「双十定律」给他带来的体会尤其深刻。

2020 年,刘冰教授所在的团队正在尝试研发一种名为「Drug X」的超级抗菌药。然而细菌的进化速度是非常惊人的,很多时候可能等不及一款新药上市,细菌就已经产生了对这款药物的耐药性。近四十年来,领域内都未有新类别、新靶点的抗生素出现,有些被超级耐药菌感染的病人甚至面临无药可用的局面。

「目前一款抗生素的研发费用平均能达到 16 亿美金,如果这款抗生素在还没有面世的阶段被发现了细菌对它的耐药性,就等于 16 亿美金直接打水漂了。」刘冰教授表示。

想要研制一款超级抗菌药,就相当于和「耐药性的产生」进行一场时间赛跑。

传统的药物研发方式显然是不够快的,我们可以粗略算一算:药物研发平均周期超过 10 年,其中先导药物的设计就需要 3 到 5 年之久。科研团队首先要从上亿个小分子化合物中找到对目标靶点最有效的那一个,在这个过程中,团队需要不断地修改药物结构来提高其活性和成药性。每一次更新药物结构都意味着合成路线、药效评估实验等系列方案的重设和验证。

彼时,刘冰教授刚回国不久,实验室还在建设中,他想要带领团队进行 AI 辅助药物设计,但在数据、算法、算力三方面都遇到了一些挑战。

华为云的合作机会让他看到了新的可能。华为云在 2021 年正式推出了盘古药物分子大模型,这是当前业界参数最大的药物分子大模型,主要面向药物研发领域,提供结合预测、属性预测、分子优化与生成能力。

「在科研的整个过程中,可能一万次失败里面才有一次成功。像我们这样十多个人的团队,必须要依靠像 AI 这种新技术,才能绕开既有壁垒,走出一条新路。」刘冰教授表示。

刘冰教授所遇到的壁垒,也正是现阶段大多数科研团队和药企所遇到的挑战。而引入 AI 技术进行药物设计的提升是相当明显的:在「药物分子筛选」和「药物分子优化」这两大环节,华为云盘古药物分子大模型对 Drug X 的研发提供了重要帮助。最终,在 AI 大模型的加持下,Drug X 先导药的研发周期获得了数十倍的加速,从数年缩短到数月,研发成本直接降低了 70%。

这种飞跃式提升是如何实现的?简单来说,华为云盘古药物分子大模型接受了超大规模的化合物表征模型训练,预先对 17 亿个药物分子的化学结构进行了学习,并对药物分子结构进行预测、打分。实验结果表明,华为云盘古药物分子大模型的成药性预测准确率比传统方式高 20%,帮助科研人员省去大量药物设计的成本。此外,该模型还内置了高效的分子生成器生成了 1 亿个创新的类药物小分子筛选库,结构新颖性达 99.68%,为发现新药创造了更多可能性。

图片

盘古药物分子大模型框架。图源:https://www.biorxiv.org/content/10.1101/2022.03.31.485886v1.full

「盘古药物分子大模型的训练前后花费两年的时间,华为云团队在模型架构设计及验证、大规模百卡昇腾 NPU 的训练都遇到过挑战,最后都一一解决了。」华为云 EIHealth 医疗智能体负责人乔楠博士介绍说。

在这一模型的打造过程中,华为云团队首创了名为「图 - 序列不对称条件自编码器」的架构,将药物分子结构转换成可量化的数值,可以更好地在数值空间定量地对药物分子结构与性质进行预测与推荐。在 AI 优先推荐的药物分子基础上,科研人员可直接选择评分较高的药物分子进行人工实验验证。

这一架构的灵感来源于人类认识化合物的两种方式:分子式和结构式。「我们教会 AI 用同样的方法学习化合物的分子式和结构式,设计了这样一个图和序列不对称的算法架构,它的两端采用的是两种不同的深度学习架构,图部分采用了图深度学习、图卷积的方法,序列部分采用了 Transformer 架构。」乔楠博士表示。

图片

盘古药物分子大模型的图 - 序列不对称条件自编码器架构。

在缩短研发时间、降低研发成本之外,盘古药物分子大模型还能够对筛选后的先导化合物进行定向优化,通过更科学的药物结构设计,降低新药可能对人体产生的毒副作用。

在相关论文发表前,华为云团队对盘古药物分子大模型进行了多项测试,结果表明,该模型在化合物 - 靶标相互作用预测、化合物 ADME/T(吸收、分配、代谢、排泄、毒性)属性评分、化合物分子生成与优化等 20 余项药物发现任务上实现了 SOTA(性能最优),可赋能药物发现全链条任务。

正如乔楠博士所说,如果说相关领域内的科研是「科学」,那么盘古药物设计大模型就是「技术」,科学与技术与相辅相成,才能让基础发现快速转化为一个可以运用到实际场景的成果。在近两年的商用中,已有多家药企借助盘古药物分子大模型设计出了具备良好活性的新分子。

其中,微芯生物在肿瘤药物设计领域基于华为云能力,将药物设计效率提升 1/3,分子优化后结合能提升 40%,加速肿瘤领域药物研发创新研究。

旺山旺水在中枢神经系统创新药物的系列研发工作中,靶点发现效率提升 3 倍,分子设计实验时间及资金成本节省 60%以上,高靶向性化合物的优化设计和验证工作量降低五倍以上。

打造新药研发领域的「EDA 软件」

不只有面向药物分子设计的行业大模型,一直以来,华为云还在做一件更长期主义的事:打造新药研发领域的「EDA 软件」。

业内有一个判断:「未来的 AI 制药,正从以算法为中心(Model-centric)朝着以数据为中心(Data-centric)的竞争趋势演进,而高质量大数据是医药研发的竞争关键。」

新药研发的核心高质量数据通常掌握在药企手中,然而大部分药企特别是中小企业仍处于传统医药研发阶段,缺乏人工智能及大数据分析手段的支撑。海量的原始数据未经过系统化的清洗整理,大多不能产生良好的预测效果。

数据的价值需要使用算法去发现,同时结合 AI 新药研发公司成熟的算法,而算法需要运行在算力平台上。在这种情况下,就需要一个高效的企业级 AI 辅助药物研发平台将三大要素有机结合起来。

如此一来,不仅能够提高药物研发的效率、节约成本,还能大大降低药物研发的门槛,让每一家药企都能高效转型。

为此,华为云在医药领域自下而上构建了 IaaS、PaaS、SaaS 三层服务:基于分布式云基础设施,在药物研发环节为药企提供融合大数据、AI 能力的一站式 AI 辅助药物研发平台,并且根据多样性的数据治理和 AI 开发需求,提供全链路药物研发数据治理能力和全流程药物研发 AI 开发能力,帮助众多药企降低 AI 开发门槛和提升研发效率  。

图片

具体来说,在 SaaS 层,华为云的一站式 AI 辅助药物研发平台涵盖了「靶点发现」、「药物筛选」、「分子优化」三大核心服务,覆盖新药研发全流程,支持从靶点发现、虚拟筛选、先导化合物优化到获取可合成先导化合物的全业务流程,真正做到了「无功能断点」。

例如,传统的靶点发现需要做大量的科研工作,对靶点做大量的生物学假设,并设计一系列的实验进行验证,需要漫长的周期。在这一环节,华为云发布了 AutoGenome 单组学自动 AI 建模、AutoOmics 多组学自动 AI 建模、AutoGGN 调控网络自动 AI 建模三个框架,即使是没有机器学习背景的研究人员,也可以借助这些自动化调优的方法和策略对自己研究的问题和数据进行建模

图片

再谈到药物筛选,传统方法通常是借助实验手段或采用高通量实验筛选平台进行筛选,不仅耗时、耗钱,而且多样性差。华为云的一站式 AI 辅助药物研发平台则大大加速了这一早期筛选过程:平台预置了药物虚拟筛选流程和分子库,依托于华为云弹性扩容算力,支持并行化地完成海量的药物虚拟筛选,同时支持小分子和多肽分子对接,提供了打分矩阵、集成可视化。

图片

药物虚拟筛选结果案例展示。

一个具备代表性的案例是,新冠疫情爆发之后,由于没有实验提出新冠病毒相关靶点,研究人员很难进行相关业务设计。当时,华为云和国内几所高校积极开展新冠肺炎药物筛选工作,基于华为云 15000 核超大算力,完成了新冠 21 个蛋白质靶点与 8500 个已上市药物的筛选工作。原本耗时一个月的药物虚拟筛选,最终缩短到一天完成。

对于分子优化环节,传统方法更加依赖资深的药化专家在漫长职业生涯中积累的经验,对化合物进行改造,并需要进行实验验证,项目的成功极其依赖药化专家的经验和运气,而华为云提供的盘古药物分子大模型将这一阶段的工作进行了拆解,提供了多种自动化工具。

模型以参考化合物为起点,使得从参考化合物到改造化合物的类药性质一览无余,更方便地迭代优化,得到性质更优、结构新颖的化合物。这些丰富的功能意味着,如果一位药企的研究人员积累了大量关于某种毒性的试验数据,就可将试验数据上传并通过盘古药物分子大模型基于它的试验数据进行 Fine-tune 调优,直接可以在八十多种分子属性里面再加上新的自定义分子属性。

「算法只是一种技术的架构,一方面算法需要数据的训练来实现真正的业务需要,另一方面,就像 ChatGPT 一样,只有足够多的数据输入才能实现算法的最好性能,最后,算法的领先性需要持续的数据输入和迭代。所以未来 AI 制药的竞争是 AI 算法和药企数据的深度结合,实现干(计算,Dry Lab)湿(实验,Wet Lab)结合,循环迭代的大模型。」

SaaS 化服务的好处在于,药企只需订阅这一平台,就可以立即将其应用到自身的业务中,不用考虑他要雇多少人去开发、维护平台,也不需要考虑怎么引入新的技术方法。这种模式对于药企来是最直接、最快速的提升,意味着可以将重心、核心、精力聚焦于自身的业务层。

在将最新的技术和方法引入到平台的同时,华为云团队也特别注重将客户需求和建议融入平台。为了应对不断变化的需求,「AI 辅助药物研发平台」每年平均迭代、更新几十次,华为云派出专业的研发团队让药企的算法模型服务持续从业务中获得反馈以进行更新,确保药企可以方便快捷地将最新的技术应用起来,最终加速创新药的研发。

数据、算法、算力,构成了 AI 技术发展的三大要素,三者之间密不可分。例如,还有一些挑战依旧是药企最担心的:比如药物设计阶段产生的大量数据如何存、怎么用?算力资源的局限如何突破?

面向客户在「数据」和「算力」两块的升级需求,华为云也给到了专门的解决方案:通过全链路药研数据治理服务,在集成、存储、转换、分析、治理等全生命周期帮助医药企业进行自动化、智能化的数据治理,实现外采数据统一管控、干实验数据跨团队共享、干 / 湿实验数据整合闭环,并以中心化数据安全策略覆盖全链路,为药物研发提供高质量、高可信数据;此外,在算力方面,华为云提供医药行业分布式云基础设施,为药物研发提供最强算力底座和极致算力性能,通过高安全、高可用、高性能、国产化、大算力的云计算资源,保障生物医药企业数字化建设的数据安全性、系统合规性、研发稳定性、资源弹性。

让「AI for Industries」走到千行百业的深处

从目前的阶段来看,AI 制药对于制药行业仍是一门颠覆式的创新技术。长远来看,AI 技术广泛应用于制药行业的是必然趋势,以传统实验为唯一的药物发现过程必将逐渐过渡为以数据驱动的范式。

中国的制药行业是一个饱和的市场,对于每一家药企来说,创新药的研发将成为下一阶段取胜的关键。接下来的路怎么走,仍然值得探讨。

在取得一系列成果之后,华为云已成为 AI 新药研发赛道的「实力玩家」,越来越受到行业伙伴的关注。基于此,多方机构联合起来探索一种科研机构、医药产业链、华为云等「产学研用」紧密结合的模式,成为了众望所归。

在近日举办的华为云 AI 新药研发论坛中,由昌平区管委会、昌发展、华为云共同建设的「生命谷健康云创新中心」正式揭牌。

图片

该中心投入运营后,华为云也将基于人工智能云计算能力持续汇聚各方力量,更有效地服务药企,帮助京津冀 TOP 药企实现突破性创新,提升京津冀生物医药产业在全国的知名度,并将合作模式辐射至全国各生物医药产业园区。

华为云 EI 服务产品部部长尤鹏表示,AI制药技术使得漫长的「马拉松」转向「加速跑」,华为希望以自身数据、算法、算力三方面的积累,以生命谷健康云创新中心为起点,未来服务于全国100+生物医药产业基地,推动中国新药研发高质量高速发展。

在新药研发领域的历史性变革中,像华为云这样的头部企业,正在对中国 AI 新药研发事业起到重要的推动作用。在我国生物医药产业链和产业集聚的形成过程中,「生命谷健康云创新中心」模式也将成为一种值得关注的创新路径。

最后,当大模型成为全新的风口,我们更需要思考的是,动辄十亿、百亿参数的大模型能在何种程度上改变社会,实现路径又是怎样的。

作为国内率先投入大模型研发及落地的机构,华为云认为,未来的三年将会是大模型是风起云涌的三年,AI 将会和各行各业深度结合,「AI for Industries」将是主要方向。

基于盘古基础大模型,华为云正在向各行各业提供盘古行业大模型服务,陆续推出了矿山、药物分子、电力、气象、海浪等盘古行业大模型,为业界贡献先进的算法和解决方案。

图片

未来,参照已经实践的大模型服务模式,华为云希望继续将最前沿的一批 AI 技术复制到千行百业之中去,推动人工智能开发实现从「作坊式」到「工业化」升级。
入门盘古大模型
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~