Weill Cornell Medicine 的研究者开发出了一种全新的数据驱动的方法 PrOCTOR,该方法将一种化合物及其蛋白质靶标的化学特性整合到了一起,提供了一种能衡量临床试验中的药物是否会因毒性原因失效的方式。该论文发表于 Cell Chemical Biology。机器之心技术分析师对其进行了简要解读,本文为解读的中文版。
论文地址:https://www.ncbi.nlm.nih.gov/pubmed/27642066
研究目的
过去十年来,各种疾病的治疗方法已经取得了很大的进展。但是,由于临床试验失败所导致的药物消耗率也一直在持续大幅增长。几乎有三分之一的药物没能通过临床试验,因为它们有不能被忍受的副作用。有潜力的药物无法通过临床试验的原因有很多,涵盖设计问题到药效和毒性问题等很多方面。
大约 20 年前,研究者提出了类药性(drug-likeness)方法来提升药物发现的成功率。类药性方法的目标是预测一种化合物是否是潜在的药物。但是,所有的类药性方法都只会考虑药物本身的分子特性,而且无法辨别具有不可控毒性的药物和安全的药物之间的区别。为了解决这个问题,这篇论文的作者利用未能通过毒性试验的药物(FTT 药物)的公开可用数据,开发了一种可以准确预测潜在药物的毒性的机器学习算法。
数据、特征和预测算法
研究者将化合物及其蛋白质标靶的化学性质组合到一起,得到了一个新的度量指标——“PrOCTOR”分数,这能帮助预测药物能否在临床试验中通过毒性测试(图 1)。这些研究者使用了随机森林模型训练 PrOCTOR,这是一种用于分类的集成学习方法。这个随机森林模型由 50 个自举的决策树构成。
与类药性方法相比,PrOCTOR 模型包含了远远更多的特征。在 PrOCTOR 模型中,每种药物都有共 48 个特征:10 种分子特性、34 种基于标靶的特性和 4 种类药性规则特性。正如预期的一样,任何一个单独的特征都不足以辨别 FTT 药物(即有毒的药物)和能被 FDA 批准的药物(即安全的药物)(图 2)。
模型的表现
研究者使用了包含 784 种 FDA 批准的药物和 100 种 FTT 药物的大型数据集来训练该模型。在训练数据集上,PrOCTOR 分数达到了很高的准确度、特异性和灵敏度(~0.75)以及较高的 ROC 曲线下面积(>0.80)。相比而言,任何类药性方法都不能成功地同时维持高灵敏度和高特异性(图 3)。该模型稳健的特征分析表明考虑药物标靶的特性(标靶的网络连接性和肝毒性是两个最重要的特性)是很关键的。
然后,研究者在欧洲和日本批准的数百种药物以及一个训练数据集中没有的包含 3236 种药物的更大型数据库上测试了该模型。整体而言,PrOCTOR 能够准确预测测试数据集中药物的毒性,甚至识别出了一些在之后的检测中发现存在严重副作用的 FDA 已批准的药物(图 4)。
图 4:(左图)训练数据集中的 FTT 药物和 FDA 批准药物,以及欧洲(EMA)和日本(JP17)批准的药物的 PrOCTOR 分数。(右图)PrOCTOR 预测的三种最有可能具有毒性的分子。值得一提的是,这三种药物都经过了 FDA 批准,之后却有报告称它们具有严重的副作用。
从 PrOCTOR 项目得到的经验教训
PrOCTOR 方法是一种全新的可广泛应用的数据驱动的方法,能够识别药物在临床试验中具有毒性的可能性。该方法能够极大加速药物发现和新药测试的过程。
尽管 PrOCTOR 算法本身并不非常复杂,但我们能从其获得的成功中学到两点:(1)研究者充分使用了公开可用的药物发现失败的数据;(2)他们将之前被忽视的特征纳入了考量。也就是说,有关临床试验和潜在药物的所有可用信息都应该得到收集和应用。
参考文献
Gayvert KM et al. (2016) A Data-Driven Approach to Predicting Successes and Failures of Clinical Trials. Cell Chemical Biology.