Genome Hunter、Yu-Cheng Yang作者Hao Wang编辑

用数据驱动方法加速药物发现和全面评估药物特性

Weill Cornell Medicine 的研究者开发出了一种全新的数据驱动的方法 PrOCTOR,该方法将一种化合物及其蛋白质靶标的化学特性整合到了一起,提供了一种能衡量临床试验中的药物是否会因毒性原因失效的方式。该论文发表于 Cell Chemical Biology。机器之心技术分析师对其进行了简要解读,本文为解读的中文版。

论文地址:https://www.ncbi.nlm.nih.gov/pubmed/27642066

研究目的

过去十年来,各种疾病的治疗方法已经取得了很大的进展。但是,由于临床试验失败所导致的药物消耗率也一直在持续大幅增长。几乎有三分之一的药物没能通过临床试验,因为它们有不能被忍受的副作用。有潜力的药物无法通过临床试验的原因有很多,涵盖设计问题到药效和毒性问题等很多方面。

大约 20 年前,研究者提出了类药性(drug-likeness)方法来提升药物发现的成功率。类药性方法的目标是预测一种化合物是否是潜在的药物。但是,所有的类药性方法都只会考虑药物本身的分子特性,而且无法辨别具有不可控毒性的药物和安全的药物之间的区别。为了解决这个问题,这篇论文的作者利用未能通过毒性试验的药物(FTT 药物)的公开可用数据,开发了一种可以准确预测潜在药物的毒性的机器学习算法。

数据、特征和预测算法

研究者将化合物及其蛋白质标靶的化学性质组合到一起,得到了一个新的度量指标——“PrOCTOR”分数,这能帮助预测药物能否在临床试验中通过毒性测试(图 1)。这些研究者使用了随机森林模型训练 PrOCTOR,这是一种用于分类的集成学习方法。这个随机森林模型由 50 个自举的决策树构成。

图 1:PrOCTOR 方法的算法

与类药性方法相比,PrOCTOR 模型包含了远远更多的特征。在 PrOCTOR 模型中,每种药物都有共 48 个特征:10 种分子特性、34 种基于标靶的特性和 4 种类药性规则特性。正如预期的一样,任何一个单独的特征都不足以辨别 FTT 药物(即有毒的药物)和能被 FDA 批准的药物(即安全的药物)(图 2)。

图 2:FTT 药物(红色)和 FDA批准药物(蓝色)的各个特征的分布情况

模型的表现

研究者使用了包含 784 种 FDA 批准的药物和 100 种 FTT 药物的大型数据集来训练该模型。在训练数据集上,PrOCTOR 分数达到了很高的准确度、特异性和灵敏度(~0.75)以及较高的 ROC 曲线下面积(>0.80)。相比而言,任何类药性方法都不能成功地同时维持高灵敏度和高特异性(图 3)。该模型稳健的特征分析表明考虑药物标靶的特性(标靶的网络连接性和肝毒性是两个最重要的特性)是很关键的。

图 3:PrOCTOR 和类药性方法的 ROC 曲线

然后,研究者在欧洲和日本批准的数百种药物以及一个训练数据集中没有的包含 3236 种药物的更大型数据库上测试了该模型。整体而言,PrOCTOR 能够准确预测测试数据集中药物的毒性,甚至识别出了一些在之后的检测中发现存在严重副作用的 FDA 已批准的药物(图 4)。

图 4:(左图)训练数据集中的 FTT 药物和 FDA 批准药物,以及欧洲(EMA)和日本(JP17)批准的药物的 PrOCTOR 分数。(右图)PrOCTOR 预测的三种最有可能具有毒性的分子。值得一提的是,这三种药物都经过了 FDA 批准,之后却有报告称它们具有严重的副作用。

从 PrOCTOR 项目得到的经验教训

PrOCTOR 方法是一种全新的可广泛应用的数据驱动的方法,能够识别药物在临床试验中具有毒性的可能性。该方法能够极大加速药物发现和新药测试的过程。

尽管 PrOCTOR 算法本身并不非常复杂,但我们能从其获得的成功中学到两点:(1)研究者充分使用了公开可用的药物发现失败的数据;(2)他们将之前被忽视的特征纳入了考量。也就是说,有关临床试验和潜在药物的所有可用信息都应该得到收集和应用。

参考文献

Gayvert KM et al. (2016) A Data-Driven Approach to Predicting Successes and Failures of Clinical Trials. Cell Chemical Biology.

技术分析
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

推荐文章
暂无评论
暂无评论~