Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

综述:药物发现中的机器学习

编辑 | 萝卜皮

不知不觉,人工智能已经渐渐延伸到了各个领域,医药领域也不例外。

来自印度 B V Raju 理工学院的研究人员发表综述,讨论了药物发现中的机器学习,归纳总结了应用于制药领域的各类机器学习技术,并指出当前该领域发展的难点,以及未来发展方向。

该综述以「Machine Learning in Drug Discovery: A Review」为题,于 2021 年 8 月 11 日发布在《Artificial Intelligence Review》杂志。

图片

人工智能概念与许多领域密切相关,如模式识别、概率论、统计学、机器学习以及模糊模型、神经网络等众多程序,统称为「计算智能」。对于制药行业而言,机器学习方法的使用将彻底改变传统的药物发现过程。

图片

图示:使用机器学习进行药物发现的各个领域。(来源:论文)

人工智能已应用于药物设计的各种方面,如药物-蛋白质相互作用预测、药物疗效的发现、确保安全性生物标志物。

药物设计应用

药物设计技术依赖于基于不同 ML 算法开发的数据库机器学习算法在药物发现过程中的精确训练、验证和应用,简化复杂的协议,已经取得了不少成果。大多数药物设计过程中都引入了 ML 技术,以减少时间成本和人工干预。

图片

图示:蛋白质的初级、二级、第三和第四级结构突出与活性位点残留物。(来源:论文)

蛋白质与蛋白质相互作用的预测

蛋白质-蛋白质相互作用 (PPI) 是主要的生物学现象之一,身体(细胞)的基本单位通过它传输信号、离子、底物和能量产生成分。这些信号、离子、底物和能量产生成分可以改善身体所需的药理反应。另外,PPI 在疾病的发病机制中起着至关重要的作用。

近年来,基于 PPI 的药物发现计划在实验上产生了一种有希望的药理物质。然而,PPI 实验预测的时间和成本被认为是限速障碍。在这方面,不同的数据库托管了以 PPI 为框架的 Web 服务器,以加速药物化学研究。

图片

图示:使用 AI 模型说明药物发现设计技术和主题。(来源:论文)

Hit发现

药物再利用的特点是「为目前处于存在阶段的药物」寻找新的适应症,它减少了药物发现的时间和危险情况。DeepDTnet 算法被认为比 NetLapRLS 和 KBMF2K 方法以及朴素贝叶斯、SVM、KNN 和随机森林算法更具优势。

虚拟筛选是在药物发现过程中使用的一种 AI 策略,用于定位小分子以区分药物靶标的结合结构。

分子对接技术的高吞吐量虚拟筛选和评分

目标识别之后,通常使用虚拟筛选 (HTVS) 和分子对接技术, 以了解蛋白质/受体的活性位点。另一种基本方法,是基于配体的虚拟筛选(LBVS),该方法依赖于化学数据库的物理化学特性。

图片

图示:分子对接取样和评分 fowchart 的基本概述。(来源:论文)

命中领先

QSAR 分析用于先导优化过程,通过预测生物活性类似物从命中类似物中寻找潜在的先导化合物。主要用于数学概念,研究物理化学或结构对象和生物活动的定量映射

图片

图示:从与 ML 算法相关联的 Hit-to-lead 优化协议中获得的 Abl 激酶抑制剂。(来源:论文)

De novo 药物架构通过调整或平衡目标利益来推进独特的化学结构。使用 De novo 模型从头开始引入新分子。深度学习模型可以利用强大的知识和生成能力,引入具有适当属性的新结构。

图片

图示:抗病毒化合物的 Smiles/SLN 符号。(来源:论文)

先导优化

先导优化的主要目的是通过最小的结构修改来消除现有活性类似物的副作用影响。机器学习可用于研究先导优化,如化学和物理特性、吸收、分布、代谢和排泄、毒性以及 ADME/T 。

用于药物发现电子资源中的 ML

图片

图示:药物发现平台电子资源中的机器学习。(来源:论文)

  • 泛检测干扰筛查中的 ML (PAINS) 可以根据要求从 PAINS 数据库访问泛检测信息。从 Pubchem 库和筛选分析中编译出来的 Hit Dexter 2.0,可用于了解新设计化合物的生物学特性。
  • 药物代谢物和代谢位点预测中的 ML  在进入临床实验之前,确定药物或新化学实体的代谢部位是非常必要的。药物代谢的预测可以通过动物模型(临床前研究)来完成,这是一个限制效率的步骤,而且成本高昂。利用机器学习模型可以解决这一问题,已经可以用于预测新陈代谢的工具有 ADMET预测器、FAME3、GLORY/GLORYx 等。
  • 皮肤敏感参数预测中的 ML  皮肤敏感性的预测是评估新药/化合物安全性参数的基本标准之一。在这方面,基于随机森林的 MACCS(RF_MACCS)和基于支持向量机(SVM)的 PaDEL(SVM_PaDEL)算法等 AI 模型已经训练了大约 1400 个与局部淋巴结检测(LLNA)信息相关的配体。
  • 天然产品标识中的 ML  用 265,000 个天然产物分离物和经 MCC 验证的合成文库训练的 ML,被用作基本预测模型 NP Scout 在线服务器,将揭示新发现的药物类似物的可能身份。NP Scout 在查询分子来源预测中的应用,可以提供有关其天然产物来源的信息,并可能成为基于天然产物的药物发现过程的重要组成。

药物发现问题

目标验证

由于数据驱动的目标识别实验的数量倍增,因此将 ML 方法用于目标识别是绝佳选择。在目标识别方面,确认疾病和目标之间的因果关系是第一步。通过使用 ML 方法,可以对目标的已知属性、因果关系、驱动目标进行预测。ML 技术可以从不同角度应用于目标识别领域。

预测生物标志物

使用 ML 方法,通过区分药物以及了解合理患者的药物机制,从而发现生物标志物,进而提高临床试验性能。在临床试验的最后阶段,往往要消耗大量的时间和成本。为了战胜这一问题,有必要在临床试验的早期阶段应用、构建和验证预测模型。使用 ML 算法可预测临床前数据分类中的转化生物标志物。

数字病理学

数字病理学基础理论的快速改进,可以更合理、更精确、高通量的发现新的生物标志物,从而缩短药物开发时间,患者也可以更快获得治疗。在应用深度学习模型之前,许多与图像分析相关的算法促使计算机学者与病理学家合作。为了对组织层进行分类,许多计算机科学家需要在计算机中手工制作图形特征。多尺度 CNN 模型则非常适用于数字病理学工作。

挑战

药物发现中存在许多挑战,大多数挑战可以通过使用机器学习技术来解决。

  • 在训练期间有几个参数和结构会导致 ML 策略产生问题。特别是在训练期间数据不足的情况下,特定的算法不能满足精度和局部最优。
  • 透明度问题是药物发现的另一个挑战。在不同分类模型中的决策规则是不清楚的。在药物开发中,机器学习模型需要理解多种机制来解释结果,并且需要多个组合特征来提高对可解释性的信任度 。
  • 可以从许多参考文献中访问集成数据,尤其是「组学」区域。
  • 同质数据会产生集成挑战。
  • 在制药公司,研究从巨大的分子延伸到个体,并且通常依赖于异构数据的整合;这些数据需要在不同的背景和规模下维持其自身,这本书就是一项挑战。

结论和未来方向

结论

人工智能技术正广泛应用于医药行业。在医学科学中,人工智能技术使计算机辅助药物开发领域向前迈进了一步。尽管如此,一些问题仍然存在,即

  • 深度学习方法的性能可以直接影响数据挖掘的创新,因为多个深度神经网络在大量数据上得到有效训练。主要目的是解决迁移学习的自动问题。
  • 「黑盒」模型在深度学习概念中变得混乱。Local Interpretable Model-Explanations(LIME)是反事实调查的一个例子。LIME 被用来解锁黑盒模型。在这里,必须通过深度学习模型来解释受限数据。然而,通过深度学习技术揭示数据仅在初始阶段发挥作用。
  • 许多参数神经网络的训练期间进行了调整,但一些理论和实践框架无法优化这些模型。

未来方向

网络创新与医学科学相结合,以提高决策和深度学习算法的预测能力,包括生物标志物、疗法的副作用、治疗效果。人工智能需要协调化学信息、组学数据和医学数据等理论结果,从而实现创新。未来,期待 AI 技术覆盖医药科学的方方面面。

论文链接:https://link.springer.com/article/10.1007%2Fs10462-021-10058-4


入门药物研发
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

朴素贝叶斯技术

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~