Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

超10亿美元,百图生科与赛诺菲达成大型战略合作,生命科学大模型商业化浪潮已来?

以 GPT-4 为代表的大语言模型风靡全球,展现了人工智能(AI)理解和生成人类自然语言的惊人能力,也让人们对大模型所能带来的下一个范式变革充满期待。

科学和产业领域是否也能打造基础大模型,为高价值的行业任务带来新的希望?这已经成为人工智能领域的投资热点。

十一刚过,高举 All in AI 大旗的全球制药巨头赛诺菲就为市场提供了一个有力的答案:赛诺菲宣布与 BioMap 百图生科达成大型战略合作,双方将基于百图生科的生命科学大模型(Life Science AI Foundation Model),共同开发用于生物治疗药物发现的前沿模型。

作为协议的一部分,BioMap 将获得 1000 万美元的预付款,和多项近期的模型开发付款、研发里程碑付款、销售里程碑付款等回报,总交易金额超过 10 亿美元。

今年 6 月,赛诺菲宣布全公司在数字化转型中迈出下一步,将 “All in” 人工智能数据科学,为患者加速取得突破性成就。赛诺菲首席执行官 Paul Hudson 当时宣称,赛诺菲的目标是成为第一家由人工智能大规模驱动的制药公司。

而根据本次双方公布的战略合作内容看,赛诺菲确实在拥抱人工智能上走在了前面,在此前多次达成具体 AI 任务的合作交易之后,又率先进入大模型这样的 AI 技术前沿 ,双方旨在利用百图生科定制的 AI Foundation Model 和世界领先的人工智能专业知识,以及赛诺菲的专有数据、蛋白质工程创新和深厚的生物制剂开发经验,创建领先的蛋白质大语言模型人工智能任务模型,从而优化突破性生物治疗药物的发现和开发过程。

与以往跨国药企与 BioTech 或 AI 公司之间联合开发某类特定靶点或药物不同,此次赛诺菲与百图生科的战略合作,是生命科学行业首次基于 Foundation Model 的商业合作,并提出以模型开发而不是药物研发进展作为里程碑,这也为 MaaS(Model as a Service)这种大模型时代的独特商业模式带来了新的案例。硅谷著名投资人查马斯(Chamath)不久前曾表示,随着大模型的功能越来越强、成本越来越高,其平台属性会更加突出,AI 领域的 MaaS 商业模式将成为趋势。

Foundation Model 与生命科学

AI Foundation Model,是指在海量数据和计算资源基础上训练出来的通用、被广泛使用的基础模型。这些基础模型也被认为是构建各种具体 AI 下游应用的基础。

自然语言处理机器视觉领域,我们已经对 GPT 等预训练基础模型和下游应用十分熟悉。而如今,生命科学领域也正在发生着类似的改变,生命科学领域的通用基础模型正在形成。

我们都知道,组成蛋白质的 20 种氨基酸 “字母”,决定了蛋白质的性质、蛋白质之间的相互作用关系,也决定了细胞中蛋白质网络的复杂调控关系和复杂的生命活动现象。这些氨基酸 “字母” 以及蛋白质序列,与人类的自然语言又是何其相似。

图片

可以说,将大语言模型所拥有远超人类想象的复杂理解能力和创新生成能力,应用在更加复杂的生命 “自然语言” 上,将有望真正改变生命科学的研究范式。

正如 DeepMind 首席执行官兼创始人 Demis Hassabis 所说:“从其最基本的层面来看,我认为生物学可以被看作是一个信息处理系统,尽管是一个非常复杂和动态的系统。就像数学被证明是物理学的正确描述语言一样,生物学可能会成为人工智能应用的完美领域。”

“从蛋白质的序列和结构到多细胞系统的行为,我们正在开发人工智能基础模型,以理解和预测不同复杂程度尺度上的生命行为。” 在百图生科官网上,有这样一句关于 Life Science Foundation Model 的介绍。

由李彦宏和刘维于 2020 年创立的百图生科,从创立之初就高举生物计算平台的大旗,大投入于构建生命科学大模型的平台技术。历经两年多时间,构建了生命科学领域的 Foundation Model——xTrimo,这是一个千亿参数规模的以蛋白质为中心的大语言模型,从跨物种、跨模态的生命信息中学习蛋白质如何构成和实现功能、如何相互作用、如何组合和调控细胞功能的关键规律。只有在一定程度上真正解码了生命 “语言” 的奥秘,才有希望为当今充满挑战的复杂生命科学问题,包括癌症、衰老等,提供创新性的解决方案。

但是,一个通用的 Life Science Foundation Model 该如何打造?又如何基于此构建下游任务模型以解决具体的生命科学问题?

传统的人工智能方法,需要大量的标记数据才能做出准确的预测。然而在生命科学领域,高质量的标记数据往往供不应求。想要在更少数据的基础上构建更准确的下游任务模型,就意味着底层基础模型需要具有更好的表征或通用能力。

按照百图生科官网的介绍,基础模型是生命科学领域彻底革命性的人工智能技术,因为基础模型可以在海量的未标记数据上进行训练,并且只需有限的标记数据,就可以为多个下游任务模型提供足够的信息。百图生科这种基础模型 + 任务模型的技术体系,使科学家能够更准确地模拟从蛋白质到系统级别的生命,比如可以根据免疫学、神经病学、肿瘤学和罕见疾病等治疗领域的有限数据,提取新颖的见解和出色的预测,从而更好地加速相关治疗或药物的开发。

图片

在今年 9 月举办的第二届中国生物计算大会现场,百图生科 CTO 宋乐博士曾接受机器之心采访,谈到计算生物学、AI for Science 的未来时,他表示 ——

“AI 模型的下一步肯定会有一些新东西。一方面,预训练模型能否训练得规模更大,更加充分,基于预训练模型的下游任务模型是否能够泛化迁移到新的靶点和蛋白质设计问题;另一方面,是如何把单一模态的大模型更好地变成跨模态的大模型。”

“想要解决生命科学问题,下一步需要一个真正能解码、理解生命的大模型。不再只是一个模型,更像是一个模型体系。这些基础模型,无论是在病人某种类型细胞中寻找靶点,还是针对某种分子设计蛋白药物或者小分子药物,都能起到一定的作用。这种基础模型将是生物计算的下一个范式,我们将会有更好的方式去应对生命科学里面各个层次的问题。”

如今,在由 300 多名专家组成的国际团队的支持下,百图生科正在基于 Foundation Model 引擎能力,不断拓展下游任务模型的边界,解决与蛋白质相关的治疗性抗体、工业酶开发以及创新蛋白设计等问题。这一过程不仅推动着生成式人工智能的进一步发展,也正革命性地改变着生命科学领域研究的范式路线。

MaaS—— 人工智能领域的革命性商业模式

基础模型在 MaaS 模式中扮演着重要的角色,可以说它是所有环节的基础,也是起点。

一方面,基础模型的通用性,意味着作为其它特定任务模型的基础,应用于多个不同的任务和领域,开发人员可以基于基础模型,通过微调或迁移学习来适应特定的问题或数据集,从而构建自己的任务模型。

另一方面,基础模型也为开发人员提供了一个强大的起点,加速应用程序和服务的开发过程,而无需从头开始训练和构建模型,更重要的是,这一特征将使得更多的开发者和组织,受益于先进的机器学习人工智能技术(比如让无编程能力的生物领域科学家们可以轻松拥有 AI 大模型的调用能力)。

MaaS 模式的诞生,得益于大模型技术的颠覆性进展,而这一模型的革命性同样也带来了许多创新和改变,不仅能够降低人们使用人工智能模型的门槛和成本,而且大大加速了机器学习人工智能技术在各行各业的应用。

这一模式对于行业的变革,不仅影响了许多小型和创业公司,也真吸引着跨国巨头企业们的重视。

赛诺菲作为知名跨国药企,可以说是最积极拥抱 AI 技术的制药公司之一,在过去两年多的时间里,赛诺菲宣布了多项与人工智能领域领先生物技术公司的合作。据不完全统计,仅在 2022 年,赛诺菲就总计支付了近 2 亿美元的合作预付款。

图片

但在诸多的合作案例中,除了基于某些靶点进行候选药物开发,或者推进临床试验等药物研发项目外,我们也能看到,赛诺菲在人工智能技术基础平台建设上的投入越来越高。在过去两年里,赛诺菲通过收购和合作,与多家 AI 制药公司、计算机公司、AI 医学数据公司可谓是展开了全方位合作。

尤其是今年 6 月宣布 “All In” 人工智能数据科学后,赛诺菲算是迈出了公司转型过程中最重要也是最激进的一步。

人工智能数据科学的使用已经支持了我们团队在加速药物发现、加强临床试验设计、改善药品和疫苗的生产和供应等方面的努力。对于我们如何拥抱这些颠覆性技术以实现我们改变医学实践的雄心壮志,我们才刚刚触及表面。” 赛诺菲首席执行官 Paul Hudson 表示。

作为一家创新型的全球医疗保健公司,赛诺菲在研究领域进行了大规模的投资,积累了多个疾病领域和治疗领域的丰富经验和高质量数据。这些独有的数据集对于 AI 模型非常有价值,因为它们可以极大地补充当前公开可用数据的不足,还可以提供大量的训练和验证数据,以适应模型的特定应用场景。或许这是百图生科选择赛诺菲的主要原因。

而百图生科构建的生命科学基础模型 xTrimo 体系,拥有超过 1000 亿个参数,并在包括抗体结构、抗体亲和力、酶功能、免疫细胞功能等 20 多个下游预测任务中取得了最先进的性能。百图生科在高质量数据挖掘和利用、跨模型数据整合和分析、任务模型开发以及工业效率改进方面的优势,则或许是赛诺菲选择与百图生科合作的原因。

当然,不得不提的是,根据协议的条款,赛诺菲将向百图生科支付 1000 万美元的预付现金款项,并将根据模型开发里程碑获得额外的近期支付。基于研发里程碑付款、销售里程碑付款等回报,百图生科未来有望获得超过 10 亿美元总金额。

不过,更为关键的一点是,一个全球头部药企,一个生命科学大模型创业公司,双方似乎都已经认识到,通过 AI 模型的力量,数据的价值可以增加,并可以转化为直接促进新药开发的工具。

在公告中,双方表示 “这次合作将结合赛诺菲的专有数据集、数字基础设施、人工智能数据科学能力以及药物开发专业知识,与百图生科的大型语言模型、高性能计算和深刻的人工智能理解,开发一系列专门针对特定模态的先进 AI 模型和大语言模型,并共同推进这些模型在药物研究中的应用,加速突破性疗法的发现过程。”

正如赛诺菲全球研究平台负责人 Matt Truppo 所说,与百图生科的合作进一步强调了赛诺菲致力于成为第一个大规模人工智能驱动的制药公司的承诺。而成立不到三年的百图生科,也已经成为了一家拥有颠覆性实力的生命科学人工智能公司。

参考资料:

[1]https://www.businesswire.com/news/home/20231010485897/en/BioMap-Establishes-a-Strategic-Collaboration-with-Sanofi-to-Co-Develop-AI-Modules-to-Accelerate-Drug-Discovery-for-Biotherapeutics

[2] https://youtu.be/P7HjKUlVvVs?feature=shared

[3] https://www.sanofi.com/en/media-room/press-releases/2023/2023-06-13-12-00-00-2687072

[4] https://hai.stanford.edu/news/reflections-foundation-models

[5] https://www.forbes.com/sites/robtoews/2023/07/16/the-next-frontier-for-large-language-models-is-biology/

[6] https://www.biomap.com/

[7] https://mp.weixin.qq.com/s/dNXQClZi5ZPBdCHADfK8Mg

产业生命科学大模型百图生科赛诺菲
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
机器视觉技术

机器视觉(Machine Vision,MV)是一种为自动化检测、过程控制和机器人导航等应用提供基于图像的自动检测和分析的技术和方法,通常用于工业领域。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~