Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

将人工智能和on-chip合成相结合,助力新药设计

编辑 | 萝卜皮

现在人工智能正在彻底改变科学家发现新药的方式。来自苏黎世联邦理工学院从事于药物设计自动化研究的 Francesca Grisoni 说:「最后,我们希望增强人类智能,以开发新药。」

从头说起

众所周知,药物的研制是一个非常艰难的过程。可用作药物发现起点的分子数量大约在 10^60-10^100 之间,这比可观测宇宙中的恒星数量还要多。因此,找到具有目标特性的药物分子,就像大海捞针一样。

「除此之外,大多数药物分子旨在调节我们细胞中的特定靶蛋白。通过与这些靶标相互作用,药物可能会抑制或促进该蛋白质的活性。这种称为生物活性的效应,可用于治疗或预防疾病。」 Grisoni 解释说。

「药物设计的中心思想是,确定对预期靶标具有高度活性的分子,同时排除可能导致副作用的其他靶标。由于可考虑的分子数量巨大,因此寻找有效的『化学空间』是极其困难的。」

并不止于此。一旦找到潜在的候选药物分子(或化合物),仍然需要在实验室中生产该分子(称为化学合成的过程),并在越来越复杂的实验中对其进行测试。这不仅非常耗时(许多分子被证明是无用的),而且非常昂贵。

药物发现中的计算机辅助

大约 30 年前,药物化学家和生物学家便开始使用计算机,来协助加快药物发现和开发过程,这并不令人意外。「计算机可以帮助选择最有可能对预期目的有效且可合成的分子。」Grisoni 解释说。

「解决这个问题的一种方法是我们所说的虚拟筛选,使用计算方法从已知可以合成的分子库中选择要测试的候选物。这些库比整个化学世界小得多(通常介于 103 和 106 分子),所以它们更容易寻找。然而,在某些情况下,人们可能想要探索化学空间的不同区域;这些区域不包含在此类虚拟筛选库中。」

这就是「从头」设计,您可以「从头开始」设计分子的地方。「从头设计有一个额外的优势,你可以生成专注于你想要实现的目标的分子,希望包括一些其他人还没有想到的分子。」

从基于规则的设计到深度学习

但是如何从头开始构建这样的分子呢?一般是通过遵循一组特定规则,逐步操作完成。「想想语法在语言中是如何工作的。如果你只是把一堆单词放在一起,你不会得到一个有意义的句子。所以,你需要规则。同样,你可以想出关于组装原子的规则。分子片段组合成一种化合物,不仅具有化学意义,而且还应具有所需的生物学特性。」

但是,就像上个世纪 80 年代和 90 年代,试图通过提出规则手册来实现自动翻译,而以失败告终的计算机语言学家一样;医学设计中基于规则的方法可能会遇到其局限性。

「在特定情况下,你会发现,规则要么过于严格,要么过于复杂。」Grisoni 说。正是在这方面,机器学习,更确切地说是深度学习,才能派上用场。它让像 Grisoni 这样的计算药物设计者,不仅可以自动学习已知化合物的「语法」(制造可以合成的有效分子需要哪些元素?),还可以自动学习它的「语义」(需要哪些元素可以对应给定目标所需的生物活性?)。

导出化学分子的 SMILES 表示。

让分子「SMILES」

为了实现这一切,研究人员使用了从自然语言处理(NLP)中借鉴的深度学习模型(谷歌翻译和 Siri 等应用程序便是基于这类模型)。为了能够在药物设计中使用 NLP,首先必须将分子的结构表示为一串单词。

幸运的是,自 80 年代以来就有这样一种语言:SMILES。「通过一次添加一个字符来完成 SMILES 字符串,NLP 模型能够自动生成新分子。这个过程不是随机的。新字符是根据模型在以前可用数据上多学的知识来选择的。」Grisoni 解释说,「将其与 Google 搜索进行比较,后者会根据之前的查询自动完成您的搜索条目。」

然而,与谷歌搜索或翻译相比,Grisoni 和她的同事面临着药物设计领域特有的一个棘手问题:在计算机算法用于生成新分子之前,缺乏大量的训练数据。「用于药物设计深度学习的大型数据集非常稀缺。已知对给定目标起作用的化合物,可能只有少数。」她解释说。

让稀缺数据发挥作用

Grisoni 与苏黎世联邦理工学院的研究人员一起撰写了一篇论文,以「Combining generative artificial intelligence and on-chip synthesis for de novo drug design」为题,于 2021 年 6 月 11 日发布在《Scinece Advances》。在这篇论文中,研究人员首次将「无规则」深度学习方法与 on-chip 合成相结合,从而生成生物活性分子;这是一种小型化自动合成形式,可进一步最大限度地减少所需的工作量。

分子设计-制造-测试-分析(DMTA)循环的快速迭代具有「更快做出更好决策」的潜力,在药物发现和相关领域有大量应用。化学反应监测和优化、计算硬件和算法的最新进展促进了药物发现过程中几个部分的自动化,例如机器人合成、计算分子设计和合成计划。机器人辅助的标准化实验程序提高了结果的可重复性、减少了错误并减少了材料消耗,从而为「绿色化学」做出了贡献。

此外,机器智能推理通过将分子设计和优化过程从个人偏见中解放出来,支持发现新的类药物分子。开创性研究将微流体平台与机器智能相结合,用于合成规划以及组合库中的自动匹配查找和匹配优化。计算机辅助分子设计是这一自动化过程的关键要素。

分子结构生成通常以「基于规则」的方式进行,即通过使用预定义虚拟反应和反应物的分子组装算法。生成式深度学习模型通过从潜在的化学空间表示中采样新分子来扩展基于规则的从头分子生成器的功能,而无需人工构建的分子构建规则。最近,「无规则」生成式深度学习在从头分子设计方面的前瞻性适用性与批量合成相结合,已得到证明。

Grisoni 的研究旨在开创生成性分子设计与自动化合成的整合。在这里,最近发布的生成式深度学习模型适用于生成同时(i)对选定的大分子目标具有生物活性和 (ii)可在台式微流体合成平台上合成的化合物。

研究人员挑战了这种自动化 DMTA 管道,以从头开始设计肝 X 受体 (LXR) 激动剂,将人为干扰降至最低。LXRs 因其在脂质代谢和炎症中的调节作用而成为有前景的药物靶点,从而增加反向胆固醇转运和减少动脉粥样硬化。

本研究成功合成了 28 个分子,并在体外完全验证了 12 个分子的 LXR 激活,通过设计和实验测试迄今为止报告的最多分子,开创了生成人工智能和自动合成的整合。提议的模块化框架有可能加速 DMTA 周期,从而解决临床前药物发现过程的主要瓶颈之一。

从而更快更好地做出决策

「基本思想是,利用与对应问题在某种程度上相关的数据,但可能有更多示例可用,即使这些数据并不完全是需要的数据。想想某人第一次写科学文章的时间。或许他们以前读过50份类似的文件,然后他们就已经能够开始写他们的了。当然,他们不是从头开始,他们一生都在学习如何阅读和写作。」Grisoni 说。

「同样,我们在数以万计的分子上预先训练我们的深度学习模型,这些分子具有对我们的目标感兴趣的一般特性。一旦模型学习到足够的信息,我们就会在更具体的集合上『精炼」它们,专注于什么。」

Grisoni 表示:「我们的研究将率先用于分子设计的『化学语言』人工智能模型与微型系统中的自动合成相结合。我们正面临着由新人工智能技术和分子设计和合成、药物发现和药物发现领域的跨学科合作驱动的前所未有的机遇。在未来,像我们这样的方法将支持药物化学家更快地做出更好的决定。」

论文链接:https://www.science.org/doi/10.1126/sciadv.abg3338

相关报道:https://phys.org/news/2021-09-augmenting-human-intelligence-ai-medicines.html

产业人工智能智慧医疗
1
暂无评论
暂无评论~