编辑 | 绿萝
2020 年,Google Deepmind 的 AlphaFold 证明它可以高精度预测蛋白质的 3D 形状后,化学家们对使用开源人工智能 (AI) 程序更快、更便宜地发现药物的前景感到兴奋。大多数药物通过与蛋白质上的不同位点结合来发挥作用,而 AlphaFold 可以预测科学家以前知之甚少的蛋白质结构。
上个月,总部位于犹他州盐湖城的生物技术公司 Recursion 宣布,它已经计算出 360 亿种潜在药物化合物如何与 AlphaFold 预测的 15,000 多种人类蛋白质结合。为了完成大规模计算,Recursion 使用了自己的人工智能工具 MatchMaker,将预测结构上的结合口袋与来自名为 Enamine Real Space 的数据库中形状合适的小分子或配体进行「匹配」。
Recursion 联合创始人兼首席执行官 Chris Gibson 表示:「很多人都预测了分子如何与蛋白质结合,但这么多的预测是前所未有的。」
但并不是所有人都那么看好 AlphaFold 彻底改变药物发现——至少现在还不是。在 Recursion 宣布前一天,加州斯坦福大学的一组科学家在 eLife 上发表了一篇论文,表明 AlphaFold 在预测蛋白质结构方面的能力尚未转化为配体结合的可靠线索。
「像 AlphaFold 这样的模型非常适合[蛋白质]结构,但我们需要思考如何将它们用于药物发现,」斯坦福大学生物物理学家、该论文的合著者 Masha Karelina 说。
其他接受《Nature》杂志采访的人也认为,这种努力提供了大量数据,但他们还不确定其质量。诸如 Recursion 之类的生物技术公告通常不会附有验证数据——实验室实验证实模型已准确预测结合。计算出的相互作用也是基于预测的而不是实验确定的蛋白质结构,这些结构可能不包含药物开发人员需要查明最强结合可能发生的位置的原子级分辨率。加州大学旧金山分校药物化学家 Brian Shoichet 表示,更重要的是,预测相互作用的绝对数量(Recursion 预测为 2.8 千万亿)意味着即使是一小部分假阳性「命中」也可能导致代价高昂的延误,而科学家则浪费宝贵的时间来验证它们。
Shoichet 说,结果令人兴奋,但也有很多问题。
展开问题
洛杉矶南加州大学的计算生物学家 Vsevolod Katritch 表示,在药物发现中使用计算工具的想法是「更容易、更快、更便宜地利用制造好药物的所有参数」。通过使用人工智能模型来寻找先导化合物,制药公司可能只需要在实验室中测试数百种化合物,而不是数千种。这可以节省数百万美元的成本,并在几年而不是几十年内将化合物推向市场。
AlphaFold 和类似的程序,例如由华盛顿大学蛋白质设计研究所的研究人员领导的国际团队开发的 RoseTTAFold,有望进一步撼动制药行业。因为许多人类蛋白质的结构一直缺乏,这使得寻找一些疾病的治疗方法变得困难。去年,欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)将储存在数据库中的 2 亿个蛋白质结构的 3D 形状预测做得非常好,认为其中 35% 是高度准确的——与实验确定的结构一样好——另外 45% 的准确度足以用于某些应用。
Karelina 说,从表面上看,从 AlphaFold 和 RoseTTAFold 的蛋白质结构到预测配体结合的飞跃似乎并没有那么大。她最初认为模拟小分子如何「对接」到预测的蛋白质结构(通常涉及估计配体结合过程中释放的能量)会很容易。但当她开始测试时,她发现与 AlphaFold 模型的对接远不如与实验确定的蛋白质结构的对接准确。Karelina 仍然不能 100% 确定原因,但她认为模型中氨基酸侧链方向与实验结构的微小变化可能是造成这一差距的原因。当药物结合时,它们还会轻微改变蛋白质的形状,这是 AlphaFold 结构无法反映的。
总部位于伦敦的 Charm Therapeutics 首席执行官兼联合创始人 Laksh Aithani 同意 Karelina 的研究结果,即 RoseTTAFold 和 AlphaFold 在确定小分子对接时表现不佳。
Charm 正在尝试一种不同的方法来评估蛋白质与药物的结合。该技术使用名为 DragonFold 的人工智能工具,该工具构建在 RoseTTAFold 主干上。它对结合在一起的蛋白质和配体的 3D 形状进行建模,Aithani 表示,这使得 Charm 能够解释配体结合时蛋白质形状的变化,并修改潜在的药物以产生更紧密、更具选择性的结合。这项工作还不够深入,Aithani 无法透露很多细节,但他表示,该项目已经吸引了总部位于新泽西州劳伦斯维尔的 Bristol Myers Squibb 制药公司的兴趣。
前方的路
Shoichet 表示,最终,这些团队面临的挑战不是设计一个模型来识别分子结合的程度,而是创建一个系统来识别与人们知之甚少的蛋白质紧密结合的化合物。他说,为了取得进展,需要在实验室进行验证。
麻省理工学院数学家 Bonnie Berger 表示,工业界应该能够进行验证。然而,目前,即使行业正在这样做,也不会共享这些数据。
「像 Recursion 这样的公司缺乏透明度,他们在没有完全分享其方法或结果的情况下做出预测。这对我和这个领域来说都是一个问题。」她说。
Recursion 回应称,它在两项研究中共享了 MatchMaker 的验证数据:一项发表于 2021 年的《Scientific Reports》,另一项发表于今年早些时候的《Journal of Chemical Information and Modeling》。
Recursion 发言人 Ryan Kelly 表示:「实时分享这些令人兴奋的技术里程碑是我们与社区和更广泛的公众分享我们对药物发现的看法的方式。」
Berger 表示,诸如让 AlphaFold 名声大噪的竞赛不仅有助于推动药物发现的发展,而且还能让人们更多地了解行业的方法。AlphaFold 在 2020 年赢得两年一度的蛋白质结构预测批判性评估 (CASP) 竞赛而成为头条新闻,在该竞赛中,研究人员必须针对一组通过实验确定结构但尚未公开发布的蛋白质来测试他们的预测模型。同样,人工智能工具的药物-蛋白质相互作用结果可以与实验室的结合结果进行比较。
Shoichet 表示,「人们正在付出巨大的努力」来利用 AlphaFold 等模型进行药物发现。但「事情仍在加速发展」。
参考内容:https://www.nature.com/articles/d41586-023-02984-w