5 月 16 日,谷歌云(Google Cloud)推出了两款新的 AI 工具,旨在帮助生物技术和制药公司加速药物发现和推进精准医疗。
一种名为 Target and Lead Identification Suite 的工具旨在帮助公司预测和理解蛋白质的结构,这是药物开发的基本组成部分。另一个是 Multiomics Suite,将帮助研究人员摄取、存储、分析和共享大量基因组数据。
这标志着谷歌在炙手可热的 AI 竞赛中取得了最新进展,科技公司正在竞相主导一个分析师认为有朝一日可能价值数万亿美元的市场。自去年底公开发布 OpenAI 的 ChatGPT 以来,该公司一直面临展示其生成人工智能技术的压力。
谷歌在 2 月份宣布了其生成式聊天机器人 Bard。上周,谷歌在其年度开发者大会上公布了几项人工智能进展后,其母公司 Alphabet 的股价上涨了 4.3%。
两个新的谷歌云套件有助于解决生物制药行业长期存在的问题:将新药引入美国市场的过程漫长且成本高昂。
根据 Deloitte 最近的一份报告,制药公司可以投资几亿美元到超过 20 亿美元来推出一种药物。他们的努力并不总是成功。Deloitte 的另一份报告称,达到临床试验阶段的药物在美国获得批准的几率为 16%。
巨大的成本和惨淡的成功率伴随着广泛而乏味的研究过程,通常持续约 10 到 15 年。
谷歌云全球生命科学战略和解决方案总监 Shweta Maniar 表示,新套件将在整个药物开发过程中为公司节省「具有统计意义的」时间和金钱。
「我们正在帮助组织更快地将药物提供给合适的人,」Maniar 表示。「我个人非常兴奋,这是我自己和团队多年来一直在努力的事情。」
从周二开始,这两种套件都将广泛提供给客户。谷歌表示,费用将因公司而异。包括大型制药公司和生物技术公司 Cerevel Therapeutics 和 Colossal Biosciences 在内的几家企业已经在使用这些产品。
靶标和引导识别套件
根据 Maniar 的说法,Target and Lead Identification Suite 旨在简化药物开发的第一个关键步骤,即确定研究人员可以关注的生物靶点并围绕其设计治疗方法。
生物靶标最常见的是蛋白质,它是疾病和生命所有其他部分的重要组成部分。寻找靶标涉及识别蛋白质的结构,这决定了它的功能,或者它在疾病中扮演的角色。
「如果你能理解作用、蛋白质结构和作用,现在你就可以开始围绕它开发药物,」Maniar 说。
但这个过程很耗时,而且往往不成功。
根据联邦国家医学图书馆(National Library of Medicine)运行的数据库中发布的制药商广泛遵循的指导手册,科学家可能需要大约 12 个月的时间才能确定生物靶点。根据 Maniar 的说法,研究人员传统上用来确定蛋白质结构的两种技术也有很高的失败率。
她还表示,传统技术很难根据需求增加或减少它们所做的工作量。
Google Cloud 的套件采用三管齐下的方法来提高该过程的效率。
该套件允许科学家使用 Google Cloud 的 Analytics Hub 获取、共享和管理蛋白质的分子数据,该平台可让用户安全地跨组织交换数据。
然后,研究人员可以使用该数据通过 AlphaFold2 预测蛋白质的结构,AlphaFold2 是谷歌子公司开发的机器学习模型。
AlphaFold2 在谷歌的 Vertex AI 管道上运行,该平台允许研究人员更快地构建和部署机器学习模型。
在几分钟内,AlphaFold2 可以比传统技术更准确地预测蛋白质的 3D 结构,并且达到研究人员需要的规模。预测该结构至关重要,因为它可以帮助研究人员了解蛋白质在疾病中的功能。
谷歌云套件的最后一个组成部分帮助研究人员确定蛋白质结构如何与不同分子相互作用。如果一个分子改变了蛋白质的功能并最终证明具有治疗疾病的能力,那么它就可以成为新药的基础。
根据有关新工具的新闻稿,研究人员可以使用谷歌云的高性能计算资源来寻找可能导致新药开发的「最有前途」的分子。这些服务为公司提供加速、自动化和扩大工作规模所需的基础设施。
首席科学官 John Renger 表示,专注于开发神经科学疾病治疗方法的 Cerevel 通常必须筛选一个包含 300 万种不同分子的大型分子库,以找到一种能够对疾病产生积极影响的分子。他称这个过程「复杂、复杂且昂贵」。
但 Renger 表示,该公司将能够使用 Google Cloud 的套件更快地清除分子。计算机将负责筛选分子并帮助 Cerevel 「非常快速地得到答案,」他说。
Renger 估计 Cerevel 通过使用该套件发现新药平均将节省至少三年时间。他说很难估计公司将节省多少钱,但强调该套件减少了筛选分子通常所需的资源和体力劳动。
他表示:「这意味着我们可以更快地到达那里,更便宜地到达那里,我们可以更快地将药物提供给患者,而不会出现那么多的失败。」
Cerevel 已经与谷歌合作了一个多月,以进一步了解该套件并确定该公司将如何使用它。但 Renger 希望 Cerevel 在下个月「能够取得一些成果」。
多组学套件
Google Cloud 的第二个解决方案 Multiomics Suite 旨在帮助研究人员应对另一个艰巨的挑战:基因组数据分析。
Colossal Biosciences 是一家旨在利用 DNA 和基因工程逆转灭绝的生物技术公司,一直在其研究中使用 Multiomics Suite。
作为一家初创公司,Colossal 没有必要的内部基础设施来组织或破译大量基因组数据。根据美国国家人类基因组研究所的数据,仅一个人类基因组序列就需要超过 200 GB 的存储空间,研究人员认为,到 2025 年,他们将需要 40 EB 的空间来存储全世界的基因组数据。
该研究所估计 5 艾字节可以存储人类说过的每一个词,因此构建支持基因组数据分析的技术并非易事。
因此,Multiomics Suite 旨在为 Colossal 这样的公司提供理解大量数据所需的基础架构,以便他们可以将更多时间花在专注于新的科学发现上。
「如果我们必须从头开始,我的意思是,这就是谷歌云的力量,对吧?」 Colossal 的战略和计算科学副总裁 Alexander Titus 表示。「我们不必从头开始构建,这无疑为我们节省了时间和金钱。」
研究人员对 DNA 进行测序的能力历来超过了他们破译和分析它的能力。但随着近年来技术的进步,基因组数据为与疾病相关的遗传变异等领域提供了新的见解。
谷歌云的 Maniar 表示,它最终可以帮助开发更加个性化的药物和治疗方法。根据发表在《自然》杂志上的一篇论文,仅在 2021 年,食品药品监督管理局批准的药物中就有三分之二得到了人类遗传学研究的支持。
Maniar 相信 Multiomics Suite 将有助于鼓励进一步的创新。
Colossal 首席执行官 Ben Lamm 表示,Multiomics Suite 是该公司能够在「任何合理的时间表」上开展研究的原因。Colossal 去年底开始试用谷歌的技术,因此,Lamm 表示,该公司的目标是到 2028 年生产猛犸象。
如果没有 Multiomics Suite,Lamm 说他认为公司会倒退十多年。
「我们不会达到今天的水平,」他说。
在使用 Google Cloud 的套件之前,Colossal 的大部分数据管理都是使用电子表格手动完成的,Lamm 说。
他说,试图构建研究所需的更复杂工具对公司来说将是一个「巨大负担」。
「在生物学方面,我们不再关注小数据,」Colossal 的 Titus 说。「我们正在思考如何深入了解 10,000、20,000、1000 万年的进化历史?如果没有可扩展的计算基础设施和工具,如云计算和多组学,这些问题就无法得到解答。」
参考内容:https://www.cnbc.com/2023/05/16/google-cloud-launches-ai-tools-to-accelerate-drug-discovery.html