在时间和金钱方面,实验筛选与蛋白质靶标的结合小分子是药物发现管线中最昂贵的步骤之一。因此,药物-靶标相互作用的准确高通量计算,在预测和指导候选药物实验筛选方面有重要价值。
麻省理工学院的研究人员提出了 ConPLex,一种用于预测药物-靶标结合的机器学习方法。它通过使用预训练的蛋白质语言模型在多种类型的靶标上实现了最优的准确性。
该方法将蛋白质和潜在药物分子共同定位在共享特征空间中,同时学习将真实药物与类似的非结合「诱饵」分子进行对比。ConPLex 速度极快,这使其能够快速筛选药物候选物,从而进行更深入的研究。
该研究以「Contrastive learning in protein language space predicts interactions between drugs and protein targets」为题,于 2023 年 6 月 8 日发布在《PNAS》。
在药物发现管线中,一个关键的限速步骤是针对目的蛋白质靶标与潜在药物分子进行实验筛选。因此,药物-靶标相互作用 (DTI) 的快速准确的计算预测可能非常有价值,可以加速药物发现过程。
分子对接是一类重要的计算 DTI 方法,它使用药物和靶标的 3D 结构进行表示。虽然最近出现的高通量准确 3D 蛋白质结构预测模型,使得这些方法可以从蛋白质的氨基酸序列开始使用;但不幸的是,对接和其他基于结构的方法(例如,理性设计、活性位点建模、模板建模)的计算费用仍然无法进行大规模 DTI 筛选。
另一类 DTI 预测方法仅隐含地使用 3D 结构,当输入仅包含药物的分子描述 [例如 SMILES 字符串] 和蛋白质靶标的氨基酸序列时,可以快速进行 DTI 预测。这类基于序列的 DTI 方法可实现可扩展的 DTI 预测,但在匹配基于结构的方法获得的准确度水平方面存在障碍。
图示:药物-靶标相互作用基准显示出高度可变的覆盖水平。(来源:论文)
在这里,麻省理工学院的研究人员介绍了 ConPLex,这是一种基于纯序列的快速 DTI 预测方法,它利用预训练蛋白质语言模型 (PLM) 的丰富特征,可以在大规模 DTI 预测任务上实现最先进的性能。ConPLex 克服以前方法的一些局限性,主要源于两个思想:基于 PLM 的信息表示和对比学习。
图示:ConPLex模型架构和训练框架的概述。(来源:论文)
虽然已经针对 DTI 问题的基于序列的设置提出了许多方法(例如,使用安全的多方计算、卷积神经网络或 transformers),但它们的蛋白质和药物表示仅由 DTI 地面实况数据构建。DTI 输入之间的高度多样性,加上 DTI 训练数据的有限可用性,限制了这些方法的准确性及其在训练领域之外的普遍性。另外,进行概括的方法通常通过牺牲细粒度特异性来实现,即无法将真阳性结合化合物与具有相似物理化学特性(「诱饵」)的假阳性区分开来。
相比之下,ConPLex 的「PLex」(Pretrained Lexicographic)部分有助于缓解 DTI 训练数据有限的问题。解决 DTI 数据集的有限大小影响表示质量的一种方法是,将学习的蛋白质表示从预训练的 PLM 转移到 DTI 预测任务。PLM 以无人监督的方式学习数百万种蛋白质的氨基酸序列分布特征,生成基于序列的表征,对深层结构进行编码。机器学习中的一个设计范例是输入的信息特征化可以增强甚至简单模型的能力。
对于特定任务数据有限的 DTI,使用 PLM 生成的表示作为输入特征使研究人员能够利用更大的单个蛋白质序列语料库。从 PLM 开始,通过使用「Con」(对比学习)部分直接解决了该架构中的细粒度特异性问题:将蛋白质和药物并入共享潜在空间的蛋白质锚定对比共嵌入。研究表明,这种共嵌入在真正的交互伙伴和诱饵之间强制分离,从而实现广泛的泛化和高度特异性。
将这两个想法放在一起得到了 ConPLex。
「这项工作解决了对潜在候选药物进行有效和准确的计算机筛选的需求,并且该模型的可扩展性使大规模筛选能够评估脱靶效应、药物再利用以及确定突变对药物结合的影响,」 西蒙斯数学教授、麻省理工学院计算机科学与人工智能实验室 (CSAIL) 计算与生物学组组长、该研究的作者之一 Bonnie Berger 说。
图示:对比训练可以高度特异性地区分药物和诱饵。(来源:论文)
与竞争方法相比,ConPLex 能够更准确地预测 DTI,同时避免了当前可用方法所遭受的许多缺陷。该方法可以针对特定任务调整基础模型。特别是,研究人员发现现有的基于序列的 DTI 预测方法的性能,可能对数据集中药物与蛋白质覆盖率的变化敏感,而 ConPLex 在多个覆盖范围内表现良好。
事实上,ConPLex 在零样本预测设置中相对于其他方法表现得特别好;在零样本预测设置中,在训练时没有关于给定蛋白质或药物的可用信息。ConPLex 的实验验证产生了 63% 的命中率 (12/19),包括四次具有亚纳摩尔结合亲和力的命中,证明了 ConPLex 作为一种准确、高度可扩展的计算机筛选工具的价值。
ConPLex 还可以在二元情况之外进行调整,以预测结合亲和力。此外,共享表示还提供了超出预测准确性的优势。蛋白质和药物在同一个空间中的共嵌入提供了可解释性,研究表明这个空间中的距离有意义地反映了蛋白质结构域结构和结合功能:研究人员利用 ConPLex 表征从 Surfaceome 数据库中对细胞表面蛋白质进行功能表征,这是一组 2,886 种蛋白质,定位于外部质膜,参与信号传导,很可能更容易被配体靶向。
ConPLex 非常快:作为概念证明,该团队使用单个 NVIDIA A100 GPU 在不到 24 小时的时间内针对 ChEMBL(≊2×10^10 对)中的所有药物对人类蛋白质组进行了预测。
因此,ConPLex 有可能应用于那些需要大量计算的纯基于结构的方法或效率较低的基于序列的方法的任务,例如基因组规模的副作用筛选,通过大量化合物库搜索或计算机深度突变扫描来识别药物再利用候选者,以预测变异对与当前批准的或潜在的新疗法结合的影响。
大多数 DTI 方法需要对每个药物-目标对进行大量计算(即具有二次时间复杂度)。因为 ConPLex 预测仅依赖于共享空间中的距离,所以一旦计算出嵌入(具有线性时间复杂度),就可以高效地进行预测。
「药物发现如此昂贵的部分原因是因为它的失败率很高。如果能够通过预测这种药物成功的可能性来降低失败率,就可以大大降低药物发现的成本。」研究的第一作者 Rohit Singh 说。
这种新方法「代表了药物-靶标相互作用预测的重大突破,并为未来的研究开辟了更多机会,以进一步增强其能力。」美国国家癌症研究所癌症数据科学实验室主任 Eytan Ruppin 评论道,他没有参与这项研究,「例如,将结构信息纳入潜在空间或探索用于生成诱饵的分子生成方法可以进一步改进预测。」
ConPLex:https://ConPLex.csail.mit.edu
论文链接:https://www.pnas.org/doi/10.1073/pnas.2220778120
相关报道:https://phys.org/news/2023-06-drug-discovery.html