编辑 | 绿萝
大多数基于人工智能的从头药物设计分子生成模型都是以配体为中心的,并且不考虑蛋白质结合袋的详细三维几何形状。口袋感知的三维分子生成具有挑战性,因为在增量生长部分构建的分子时需要施加物理等变性并评估蛋白质-配体相互作用。
受到凝聚态物质和统计物理学多尺度建模的启发,来自浙江大学和碳硅智慧的研究团队,提出了一种基于蛋白口袋的三维(3D)分子生成模型——ResGen,通过自回归模型和多尺度建模技术,在保证生成分子多样性的同时,生成具有较好结合亲和力、且具有合理蛋白-配体结合姿势的分子。该方法不仅适用于药物从头设计,还支持基于片段的分子生成。
ResGen 建立在并行多尺度建模的原理之上,可以捕获更高层次的交互,并实现更高的计算效率(比之前最好的技术快大约八倍)。生成过程被表述为分层自回归,即用于学习蛋白质-配体相互作用的全局自回归和用于学习每个原子的拓扑和几何分布的原子成分自回归。
研究证明,与现有的最先进的方法相比,ResGen 在生成新分子方面具有更高的成功率,这些新分子可以比原始配体更紧密地与 unseen targets 结合。此外,在现实场景中从头药物设计的回顾性计算实验表明,ResGen 成功生成了比最先进的方法具有更低的结合能和更高的多样性的药物样分子。
该研究以「ResGen is a pocket-aware 3D molecular generation model based on parallel multiscale modelling」为题,于 2023 年 9 月 7 日发布在《Nature Machine Intelligence》上。
基于结构的分子生成仍面临挑战
早期药物发现本质上是一个在广阔的化学空间中寻找潜在候选药物的盲目过程。其中许多灵感通常来自日常生活中的偶然事件或古老配方的启发,例如头孢菌素和青蒿素的发现。
然而,分子生物学和计算化学的进步深刻地改变了药物设计的范式,促进了从盲目筛选到理性设计的转变,并使在集中的化学空间中有效导航成为可能。特别是,现在可以通过在分子水平上分析和优化药物与靶标的相互作用来设计候选药物。
分子生成是理性药物设计中的一个热门话题,研究表明,合理的分子生成模型可以极大地加速先导化合物的发现。
基于结构的分子生成(SBMG)模型的最高目标是直接生成具有适当拓扑和兼容的 3D 几何结构的口袋感知配体。虽然现在可以建立可靠的机器学习模型来估计蛋白质与配体结合的亲和力,但在开发 SBMG 模型方面投入的精力很少。这是因为只有当模型遵循 SE(3) 等方差时,才能最佳地实现这一重要的生成过程,最近才成为最前沿的话题。
最近 SBMG 领域有了一些探索。但 SBMG 仍然是一个未被充分研究的领域,有许多技术障碍有待克服。
ResGen:基于蛋白口袋的 3D 分子生成模型
在此,研究人员提出了一种新颖的 SE(3) 等变多尺度生成模型,称为 ResGen,用于处理此条件任务。具体来说,引入了用于分子生成的两级自回归协议,以更好地将蛋白质口袋的几何形状纳入考虑范围。全局自回归是在口袋中逐一生成原子,原子自回归是依次生成新添加的原子的坐标和拓扑。
此外,为了更好地捕获更高层次的相互作用并降低计算成本,研究人员针对这个 3D 条件生成问题引入了一种精心设计的并行多尺度建模技术,即残基原子方案,其灵感来自于多尺度建模(例如粗尺度建模)。
此外,为了尽可能保持多尺度建模构建的局部坐标特征并同时满足 SE(3) 等方差要求,将几何向量神经元和向量感知器合并为 ResGen 的构建块。
口袋感知 3D 分子生成模型的两个设计准则是:(1)能够学习配体在不同蛋白质口袋中的特征拓扑分布,即学习分子图的靶依赖性分布,包括与蛋白质口袋新相互作用模式相关的拓扑结构,以实现更紧密的结合;(2)它能够学习口袋内配体的几何分布(即原子位置和构象的合理性),以直接在口袋内生长物理上敏感的姿势。
为了根据这两个设计标准评估和比较 ResGen 与现有最先进的模型,研究人员提出了以下评估方案。为了评估第一个设计标准,评估了为测试集中的目标和现实世界的治疗目标设计的生成分子的结合能和类药物特性。此外,计算了生成的分子与训练/测试集中的活性物质之间的相似性,或治疗靶点上的活性物质之间的分子相似性,以对药物相似性进行综合评估。
为了评估生成的几何形状的质量,进行了「构象质量」实验并分析了分子相互作用模式。特别是,在构象质量实验中,使用生成的几何形状和真实构象之间的均方根偏差(r.m.s.d.)比较了生成的样本和训练分子之间的键长分布。此外,为了分析相互作用模式,随机选择了几个案例并提取了蛋白质-配体相互作用概况,以说明 ResGen 是否可以成功学习这些依赖于几何形状的相互作用。
总体而言,该研究中提供的大量实验证明,ResGen 是一种强大的工具,可以生成比实验确定的活性物质具有更接近甚至更低的结合能分布的分子,并且可以直接生成合理的 3D 配体-蛋白质结合姿势。相信 ResGen 是基于结构的药物设计的强大工具。
论文链接:https://www.nature.com/articles/s42256-023-00712-7