Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

药物-靶标亲和力预测,上科大团队开发了一种Transformer编码器和指纹图谱相结合的方法

编辑 | 萝卜皮

药物与靶标之间的结合亲和力的预测对于药物发现至关重要。然而,现有方法的准确性仍需提高。另一方面,大多数深度学习方法只关注非共价(非键合)结合分子系统的预测,而忽略了在药物开发领域越来越受到关注的共价结合的情况。

上海科技大学的研究团队提出了一种新的基于注意力的模型,称为 TEFDTA (Transformer Encoder and Fingerprint combined Prediction method for Drug-Target Affinity),来预测键合和非键合药物-靶标相互作用的结合亲和力。

为了处理如此复杂的问题,研究人员分别对蛋白质和药物分子使用了不同的表示。具体来说,通过使用非键合蛋白质-配体相互作用的数据集训练模型来构建初始框架。

对于广泛使用的数据集 Davis,该团队提供了一个手动校正的 Davis 数据库。为了优化性能,还在 CovalentInDB 数据库中的较小共价相互作用数据集上对该模型进行了微调。

结果表明,与单独使用 BindingDB 数据相比有了显著改进,预测非共价结合亲和力平均提高了 7.6%,预测共价结合亲和力平均提高了 62.9%。

该研究以「TEFDTA: a transformer encoder and fingerprint representation combined prediction method for bonded and non-bonded drug–target affinities」为题,于 2023 年 12 月 23 日发布在《Bioinformatics》。

图片

在药物研发领域,预测药物与靶点相互作用/亲和力(DTI/DTA)是不可或缺的组成部分。

在早期阶段,研究人员通过实验确定这些相互作用,这既耗时又昂贵。随着计算机技术的进步,研究人员开始利用计算机来预测药物与靶点的相互作用,并使用对接程序(例如 GLIDE、Molegro Virtual Docker)模拟药物与靶点的结合姿势。但这种对接方法也有相应的局限性,即对接过程也需要较长的计算时间,并且需要蛋白质的三维结构。

随着机器学习深度学习的发展,研究人员尝试将这些领域纳入DTI。目前,基于深度学习的方法已得到广泛应用。这些方法的优点是能够自动提取特征。然而,初始输入数据,特别是蛋白质和小分子的数据描述,显著影响模型的性能。

在最新的研究中,上海科技大学的研究团队提出了一种用于预测药物-蛋白质相互作用中的共价(键合)和非共价(非键合)结合亲和力的新模型,称为指纹编码器 DTA (TEFDTA)。

图片

图示:TEFDTA 框架。(来源:论文)

TEFDTA 从两个现有模型 DeepDTA 和 TransformerCPI 中汲取灵感。DeepDTA 提供了一种使用 1D-CNN(一维卷积神经网络)从序列中提取特征的方法。该模型侧重于从序列信息中提取局部模式特征,以方便特征提取。虽然循环神经网络(RNN)也可以处理一维输入并执行特征提取,但它们存在某些局限性。

另一方面,CNN 在有效捕获全局特征方面存在局限性。RNN 尽管能够通过网络传播处理整个序列,但会遇到随着时间的推移而忘记信息的问题。TransformerCPI 证明 Transformer 可以有效解决 CNN 和 RNN 模型中存在的问题。Transformer 构建在编码器和解码器之上。

鉴于此,该团队利用 Transformer 作为特征提取器来提取复杂的分子序列。值得注意的是,单个编码器足以完成此任务,因为由于潜在的收敛困难,更复杂的模型将需要更长的训练时间,而不必增强信息提取。

为了评估 TEFDTA 的性能,研究人员在 Davis、KIBA 和 BindingDB 数据集上进行了实验,并将结果与其他结合亲和力预测模型(即 DeepDTA 和 DeepCDA)进行了比较。

结果证实了 TEFDTA 在结合亲和力预测方面的性能。此外,通过对数据库 CovalentInDB 中键合蛋白-配体相互作用的数据集进行微调,进一步优化了该模型。共价结合数据根据常见弹头进行分类,并对每个弹头类别进行单独微调。结果表明,微调过程显著提高了模型对共价结合亲和力的预测准确性,强调了专门训练的重要性。

图片

图示:六种常见弹头微调前后的共价结合亲和力预测比较。(来源:论文)

此外,该团队还进行了预测针对 EGFR 的药物分子的结合亲和力的案例研究。结果表明,虽然该模型可能无法精确预测具有相同主链结构但取代基不同的分子的确切结合亲和力值,但它能够捕获分子上不同取代基引入的亲和力方差的趋势。这表明该模型对局部结构变化的潜在敏感性及其近似结合亲和力强度的能力,需要用更大的数据集进行确认以进行进一步的评估或训练。

图片

图示:TEFDTA 对区分由微小结构差异引起的结合亲和力 (pKd) 差异的敏感性的结果。(来源:论文)

总之,TEFDTA 结合了指纹变换和 Transformer 编码器模块,为准确预测药物-靶标相互作用提供了一种改进的方法。

同样该模型也存在一些局限性。虽然该模型可以成功捕获分子序列的微小变化对亲和力的影响,但它对蛋白质片段的突变(包括单个或几个氨基酸变化)并不敏感。对于虚拟筛选任务,当突变发生时检测亲和力的可观察变化非常有价值。

直接从蛋白质的 FASTA 序列中提取特征很难实现这一目标,因为单个氨基酸突变在整个蛋白质的嵌入中是难以察觉的。然而,随着大型语言模型的出现,通过在大量蛋白质序列上预训练这些模型,通过无监督学习来提取蛋白质的表示已经成为可能。通过使用下游任务(例如具有突变的数据)对模型进行微调,模型变得对关键氨基酸敏感。

未来,该团队还将尝试使用大型语言模型来提取蛋白质表示。此外,目前对共价结合亲和力的预测需要先验了解配体和靶标对的共价键类型,这可能限制了广泛和正确的应用,特别是对于非化学家来说不友好。这些方向值得在未来的研究工作中进一步探索。

论文链接:https://academic.oup.com/bioinformatics/article/40/1/btad778/7492659

理论
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~