Nature来源王艺 高静宜 不定项编译

用代码描绘出分子世界的壮阔星空,化学家和程序员开启新的征程

2016 年,制药公司 Sunovion 分配给经验丰富的员工们一个不寻常的任务。

在马萨诸塞州马尔堡的总部,化学专家们被要求玩一个游戏,看谁能先找到制造新药物的最佳线索。他们面前的工作站上有数百个化学结构网络,其中只有十个被标记了相关的生物效应信息。专家们不得不借助他们在化学和生物方面积累的知识,来对分子进行抉择和判断,进而找到可能成为新药物的候选者。在 11 名参与者中,有 10 位花费几个小时的时间来完成这项工作。而另一位则在几秒内轻松通过了这个考验——用算法来解决。

 这个计算机程序是 Willem van Hoorn 的一个点子,他是创业公司 Exscientia 的首席化学信息专家。这家公司位于英国邓迪,尝试利用人工智能来设计药物。Exscientia 希望能够 Sunovion 构建合作伙伴关系,因此在这一课题上下了很大的赌注。「我很值得信赖。」van Hoorn 说道。20 轮游戏过后,他总结出了规律,终于放松了下来。他的算法精通一些化学黑魔法,在寻找新药物的过程中,只败给过一位专家。

 从那开始,Excientia 和 Sunovion 就携手展开精神科药物的研发。「那场比赛非常有助从那些化学研究决策的人手中获得经验。」Sunovion 公司的计算化学部门主管 Scott Brown 说道。

 在工业和学术领域,越来越多的团队把目光瞄向了计算机,希望借助计算机技术探索这个极其广阔的化学世界,Exscientia 只是这其中的一员。化学家估测,约有 1060 种具有类药物特性的复合物是可以合成的,这些分子比太阳系中原子还要小很多。

值得庆幸的是,合适的计算机算法可以对海量复合物的特性进行分类、识别以及比对,帮助研究人员快速高效、经济实惠地根据目标找到最佳候选药物。支持者认为,这些策略可以提升药物的安全性,降低药物在临床试验中失败的几率。不仅有助于新型治疗方法的发现,还能拓展人们在化学领域的研发空间,开辟之前未被开发或是被认为贫瘠的研究领域。

 然而,也有许多药物化学专家怀疑这是一场炒作,他们并不相信具有不可言喻的复杂度的化学问题可以仅被一行代码解决。即便是那些认可 AI 的人们在尝试中也经历过失败:计算机合成的复合物可能充斥着很难真实用于药物合成的组成成分,例如 3-或 4-原子环,或是有活性基因会引发安全警报。「当研究人员不了解这个领域时,这些计算机方法的实现可能会遭受一些非议。」van Hoorn 说道,「他们想出的那些复合物令人感到可笑。」不过他也表示,人类专家的确可以对这些数码设计师起到调和作用。「我认为,如果计算机科学家能和浸淫在化学领域的人合作,那么之前的一些想法就能够真正发挥出作用。」

 分子世界的壮阔星图

 为了在化学世界航行,一张地图是非常有帮助的。2001 年,瑞士伯尔尼大学的化学家 Jean-Louis Reymond 开始使用计算机绘制尽可能多的空间可能性。16 年过去了,他积累了世界上最大的小分子数据库,这是一个巨大的虚拟 1660 亿个化合物的集合。这个名为 GDB-17 的数据库包含了所有由 17 个原子组成的有机分子——这也是 Reymond 的电脑所能处理的数据。「让一台电脑编辑一份化合物的清单,可能需要超过 10 个小时。」Reymond 说。

 为了理解这些药物合成的众多可能性,Reymond 已经想出了一种方法来组织他的化学宇宙。他从元素周期表中获得的灵感后,计划将化合物按照相关属性组合在一个多维空间中。这些元素的位置按照 42 个特征来分配,例如每个化合物里有多少个碳原子。

 对于每一种已经上市的药物,都有成千上万种化合物的分子结构与它类似,差别只在于多了氢原子或者是多了一个双键。其中某些的治疗效果可能比目前被批准的药物效果更好。通常而言,化学家们不太可能遍历所有的可能性,就像 Reymond 所说:「你不可能用一支笔和一张纸在获得这些同分异构体。」

 幸运的是,Reymond 和他的团队可以利用计算机寻找与核定药品结构相似的化合物。通过使用一种特殊的药物作为研究的起点,团队可以在短短 3 分钟内梳理出数据库中所有的的 1660 亿个化合物。在一项理论验证研究中,Reymond 以一种结合尼古丁乙酰胆碱受体的化合物开始,计算机列出了 344 种相关化合物的清单。研究小组合成了三种,其中两种可以有效地激活受体,并对治疗肌肉萎缩有所帮助。这种方法就像使用地质地图寻找掘金点,Reymond 说:「你需要一些方法来选择你要挖掘的地方。」

 另一种方法是利用计算机提供大量的潜在掘金点,可以避免了不知从何开始的困境。在药物的研究中,这意味着在电脑模拟中筛选大量的化学数据库,寻找与特定蛋白质结合的小分子。首先,研究人员必须利用 X 光决定结合点。接着,利用分子对接算法,电脑可以通过复合集合来找到最适合的结合方式。

 随着计算能力的爆炸式增长,这些算法的能力也得到了大幅提升。在 2016 年,加州大学的化学家 Brian Shoichet 及他的团队利用这一方法寻找一种新的止痛药,这也表明了这一方法的潜力。该研究小组筛选了超过 300 万种可获取的化合物,有选择性寻找降低呼吸频率的药品。研究人员很快将这个名单中删选出最适合的 23 种化合物,以便后续的研究。

 

利用计算机和数据筛选化合物

 实际上,Shoichet 还是旧金山一家生物科技公司 Epiodyne 的联合创始人。他们还计划利用这项技术研发更合适的止痛药。他的团队还对浩如烟海的分子结构的进行分析,有些结构从未出现过,但容易通过人工的方式合成。

 而且,目前已有商业化的药物开发公司在尝试这种方法:位于剑桥的生物技术公司 Nimbus Therapeutics,正在将天然化学物质的特性从自然环境转移到电脑屏幕上。目前还不清楚这些药物是否最终可以合成药物,但该公司的 CEO Don Nicholson 表示,至少已经完成了一种药物的设计方案,「这也是我们未来需要攻克的方向。」

 这些从屏幕上得到的初步结果正在动摇 Shoichet 关于化学空间的核心假设:只有那些已经存在的,更容易合成药物的领域才值得关注。如今这些模拟出来的分子结构具有良好特征,甚至有些人认为到别处寻找是一种浪费时间的做法。「在我的职业生涯中,我一直相信这点:只要能行得通就行,即使没有太多证据。」Shoichet 说,「我开始认为这些分子构成的星系里充满了黄金。」

 化学家和程序员的征途

 这些数据搜寻工作已经被充分地尝试并测验,但结果是计算机只能根据有迹可循的指导线索行事。在药物发现领域,目前最前沿的科技来自机器学习,这种算法能够根据数据以及经验自主学习,逐步达到预计的学习效果,并能发现人眼观察不到的药物结构。目前大约有 12 家公司正在研发机器学习驱动的药物发现算法,并与大型的药物公司进行合作测试。

 Andrew Hopkins 是 Exscientia 的 CEO,他深知这些新途径的威力所在。平均来说,一种新药从发现,到优化,到临床前研究需要 4.5 年,化学家们经常会合成上千种化合物,来保证最后能够得到足够的制药线索,即便是这样,这些线索能够推向市场的可能性依然微乎其微。Exscientia 尝试将一些算法进行组合(其中一个是前文提到的在 Sunovion 的研究中惊艳众人的算法),这些算法的组合或许能够将药物研发的 4.5 年降低至 1 年,并且能够有效减少前期需要准备的化合物的数量。

 

「人机结合能够打败所有人类,而且能打败所有算法」

2015 年,Exscientia 在大日本住友制药举办的一场比赛中鏖战了 12 个月之久。大日本住友制药是 Sunovion 的母公司,总部位于日本大阪。Exscientia 的研究者们训练 AI 工具使其学会寻找两个 G 蛋白偶联受体结合构成的药物分子,发现算法只需合成不到四百个化合物就能找到一个符合要求的选项。Hopkins 表示,这些新出现的药物正在接受精神疾病相关的临床试验。自今年五月以来,这家公司已经与位于巴黎的 Sanofi 公司和位于英国布伦特福德的 GlaxoSmithKline 签署了总价上亿美元的合同。

 Numerate CTO Brandon Allgood 表示:「除发现药物线索外,机器学习算法还能帮助要富研发人员尽早抛弃无用的化合物。」Numerate 是一家位于加州圣布鲁诺的 AI 药物设计公司。他说,如果该化合物最终会因为有毒或者需要好几个月人体才能吸收的话,那么把它造出来并且进行测试是完全没有意义的,而 AI 系统只需 1 毫秒就能够判断该化合物到底值不值得继续进行。Allgood 在深入化学领域之前曾是一名受过专业训练的宇宙学家。今年,Numerate 已经与制药公司谈成两单合作,其中一单的合作对象是位于法国叙雷讷市的 Servier 公司,在这里,Numerate 对 AI 算法发现的药物进行心力衰竭与心律失常的临床试验。

 产业投资越来越狂热,但计算方法仍需增强。Reymond 的数据库和其他的药物数据库相比已经非常庞大,但它也还是只覆盖到了药物宇宙中最微小的部分。尽管 Reymond 的数据库中已经有 1.66 兆种化合物,但他离目标的距离仍非常遥远,就好像一个想数清天上所有的星星的天文学家,但却迄今为止只找到了一颗的。

目前,过滤化合物的方式依赖于观察蛋白质与化合物的结合,若要达到好的疗效,需要结合物具有非常精确的晶体结构,其中用到的数据需要大量的时间、金钱、以及科研专家才能获得。同时,这些算法还需要想方设法地避免与运动中的蛋白质「误结合」,而且算法对化合物的推荐程度的排序能力也不尽如人意。在这些问题上,机器学习系统能够发挥的作用的瓶颈取决于训练数据集的质量,并且当遇到他曾经没有遇到过的化合物时,表现非常不好。更有甚者,整个基于神经网络的应用程序是一个黑盒子,我们目前还不知道为什么该系统能够如此地行之有效。

 很多计算方法会经常推荐在实验室难以生产的化合物,化学家们因此需要艰苦地搞明白这些化合物的配方,这一过程可能需要几个月甚至更久。即是这样,化学家们也不能确定该化合物成形后是否有用。Reymond 的算法对于一个化合物有效与否的预判准确率仅在 5%–10%,这意味着化学家们需要合成 20 种系统判断为可行的化合物,才能保证有一种是有效的。Reymond 说:「我认为人类药物宇宙大爆发的瓶颈在于对化合物的合成过程。」出于这个原因,他最近将他的化学物质数据库在保证药物性能覆盖的前提下缩小到 1000 万种容易合成的化合物。

 药物公司 Relay Therapeutics 的首席科学家 Mark Murcko 认为,药物计算领域不需要过分关注新算法的研发,而是应该重视训练数据的质量。他说:「优化训练模型的最佳方法之一就在于给他们投喂越来越多、越来越好的数据。」实际上,Relay 以及其他一些药物公司中的化学家们正在紧密地和计算科学家们合作,将计算科学家和算法提出的化合物构想进行合成,并将合成结果作为未来做决定时的参考数据。

 对于 Hopkins 来说,上述合作至关重要。科学家们花费了好几十年才让机器人能够与人类国际象棋选手较量,才有了 1997 年 IBM 的深蓝系统打败 Garry Kasparov。但这次失败并不代表国际象棋赛事的终结。反之,Kasparov 创造了一支由人类和 AI 共同组成的国际象棋团队。「人机结合能够打败所有人类,而且能打败所有算法。」Hopkins 说,他希望在医药行业,也能同样发生数据红利、创造力以及常识的结合,「我相信我们正处在 Kasparo 和深蓝交锋的时代。」

产业药物研发产业应用生物医学机器学习
2
暂无评论
暂无评论~