Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

促进癌症治疗,之江实验室团队开发端到端深度学习模型 DeepAEG

编辑 | 白菜叶

由于药物疗效的不确定性和患者的异质性,癌症药物反应的预测是现代个性化癌症治疗中的一个具有挑战性的课题。而且,药物本身的特性和患者的基因组特征可以极大地影响癌症药物反应的结果。

因此,准确、高效、全面的药物特征提取和基因组学整合方法对于提高预测精度至关重要。

之江实验室的研究团队提出了一种名为 DeepAEG 的端到端深度学习模型,它基于完整图更新模式来预测 IC50 值。

并且,研究人员提出了一种新方法,通过采用序列重组来增强简化的分子输入行输入规范数据,从而消除药物分子单一序列表示的缺陷。

DeepAEG 在多个测试集的多个评估参数上优于其他现有方法。此外,利用 DeepAEG,研究人员还确定了几种潜在的抗癌药物,包括硼替佐米(它已被证明是一种有效的临床治疗选择)。研究人员认为 DeepAEG 在指导特定癌症治疗方案设计方面具有潜在价值。

该研究以「DeepAEG: a model for predicting cancer drug response based on data enhancement and edge-collaborative update strategies」为题,于 2024 年 3 月 9 日发布在《BMC Bioinformatics》。

图片

癌症仍然是全球主要死亡原因之一,近年来其发病率呈上升趋势。开发具有选择性抗肿瘤作用的新治疗药物具有重要的科学意义和临床价值。

由于癌症的异质性很强,相似的抗癌药物在同一类型的癌症患者中可能会引起不同的反应。这说明癌症个体化治疗意义非凡,即根据患者的基因型信息和生理特征,为患者推荐精准的药物治疗方案,从而提高治疗效果,减少药物副作用。

特别是癌细胞系(CCL)基因组学在个性化癌症药物设计研究中发挥着重要作用。同时,高通量测序技术的发展促进了癌细胞系数据库的发展和积累。

半数最大抑制浓度(IC50)是一个广泛使用的细胞系分析指标。分析癌症相关基因的内在特征及其与抗癌药物的相互作用,可以揭示抗癌分子的潜在特征,从而简化抗癌药物的早期筛选,提高特异性抗癌药物的发现效率。但是现有方法的有效性可能受到其有限的泛化和计算效率的限制。

目前,用于癌症药物预测的机器学习方法包括但不限于逻辑回归、支持向量机、多层神经网络随机森林。此外,基于深度学习的方法采用复杂的深度神经网络架构,从多源数据中提取复杂的信息。

然而,由于数据表示受到某些限制,在不完整的特征学习过程中,一些潜在的信息可能不可避免地丢失。以往研究的局限性如下:

  • 现有的工作忽略了药物分子中的化学键信息,这对于区分两个化学原子之间的相互作用至关重要。该信息还有可能直接影响药物与癌细胞系相互作用的结果。
  • 以前的工作要么应用基于字符串的方法(例如 SMILES),要么应用基于图形的方法来表示药物分子。然而,这两种方法都可以为药物发现提供补充信息。充分利用这两种信息可以帮助更好地了解药物的潜在表征。
  • 以前的大多数工作仅使用单个基因组图谱来代表癌细胞系,而忽略了多组学数据或 CCL 中包含的丰富信息。基因组多组学特征的范围仍然可以大大扩展。一些已被证明对癌症具有高度信息性的基因组特征尚未被整合和利用。

为了克服上述限制,之江实验室的研究团队提出了一种新颖的多源异构图卷积神经网络,称为 DeepAEG。它是一个端到端的深度学习框架,包括用于 IC50 预测的边缘更新策略和数据增强策略。

图片

图示:DeepAEG 的框架。(来源:论文)

DeepAEG 使用 Transformer 和包含边缘信息的图卷积神经网络来提取药物特征,并结合四个子网络(拷贝数、DNA 甲基化、基因突变、基因表达)来提取癌症组学水平的高级信息,以预测抗癌药物的疗效。

DeepAEG 可以整合多种组学功能。该模型使用一对药物-癌细胞系基因图谱以及相应的真实 IC50 数据和 IC50 量化预测值作为输出。

一方面通过图表示将药物转化为更高层次的潜在表达,另一方面通过Transformer可以得到基于子结构序列提取的向量表示。两种组合形成的药物特征与从四个全连接网络中提取的转录组信息进行拼接,然后输入到由1D CNN组成的线性网络层。研究人员使用 AdamW 优化器学习率为 1e^-3 ,批量大小为 256,均方误差作为损失函数。模型的具体构建在 keras 中实现。

综合实验表明,边缘信息特征、SMILES 序列重组和扩展多组学图谱的融合优化了药物细胞系反应实例的特征提取能力。DeepAEG 显示了最好的 PCC、SCC 和 RMSE。并且缺失数据预测的结果也确定了潜在有效的药物(硼替佐米,AICA)和最相关的基因。结果展示了 DeepAEG 的预测能力及其在指导癌症特异性治疗方面的潜在价值。

研究人员表示未来的研究方向有以下几个:

(1)由于坐标可以量化两个原子之间的键长,并且键长、键强度和电子密度分布之间存在特定的幂律关系,因此三维分子坐标表达可以丰富药物分子信息并潜在地提高模型预测性能。

(2)通过癌细胞知识图谱,可以实现不同领域知识的整合与融合,满足癌症精准医学背景下多学科知识的整合与应用要求。

DeepAEG 将为不断发展的精准医疗领域做出贡献,促进癌症机制研究和特异性药物开发。

免费获取 DeepAEG:https://github.com/zhejianzhuque/DeepAEG

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05723-8

理论
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

范数技术

范数(norm),是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

图卷积神经网络技术

图卷积神经网络(Graph Convolutional Network)是一种能对图数据进行深度学习的方法。GCN的三个主要特征:它是卷积神经网络在 graph domain 上的自然推广;它能同时对节点特征信息与结构信息进行端对端学习;适用于任意拓扑结构的节点与图;

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~