Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

中国矿大团队,开发集成多尺度深度学习模型,用于 RNA 甲基化位点预测

编辑 | 萝卜皮

研究表明,通过转录后 RNA 修饰进行的表观转录组调控,对于所有种类的 RNA 都是必不可少的。准确识别 RNA 修饰,对于了解其目的和调控机制至关重要;并且,这些信息将可能对众多人类疾病的研究带来巨大帮助。然而,识别 RNA 修饰位点的传统实验方法相对复杂、耗时且费力。

机器学习方法已应用于以计算方式提取和分类 RNA 序列特征的过程中,这可以更有效地补充实验方法。最近,卷积神经网络(CNN)和长短期记忆(LSTM)因其在表示学习中的强大功能而在修改点预测方面取得了成果。

然而,CNN 可以从空间数据中学习局部响应,但不能学习序列相关性。LSTM 专门用于顺序建模,可以访问上下文表示,但与 CNN 相比缺乏空间数据提取。出于这些原因,所以十分有必要使用自然语言处理(NLP)、深度学习(DL)构建预测框架。

中国矿业大学的研究人员提出了一种集成多尺度深度学习预测器(EMDLP),以 NLP 和 DL 方式识别 RNA 甲基化位点。它有机地结合了扩张卷积和双向 LSTM(BiLSTM),有助于更好地利用局部和全局信息进行站点预测。

该研究以「EMDLP: Ensemble multiscale deep learning model for RNA methylation site prediction」为题,于 2022 年 6 月 8 日发布在《BMC Bioinformatics》。

图片

背景

RNA 分子的功能多样性通过转录后 RNA 修饰来丰富,它调节 RNA 生命的所有阶段。到目前为止,已经发现了大约 160 种不同形式的 RNA 修饰。

其中,N^1-甲基腺苷(m^1 A)修饰是一种普遍存在的RNA修饰,发生在与甲基相连的腺嘌呤碱基的氮 1 位,它与呼吸链、神经发育退化和介导抗生素耐药性细菌等问题有关。

另一种影响腺嘌呤的修饰是 N^6-甲基腺苷(m^6 A)修饰,这是哺乳动物中最丰富的修饰,它发生在腺苷碱基的氮 6 位上,它往往对人类的生长和疾病有着深远的影响。然而有趣的是,m^1 A 在碱性条件下偶尔也会变为 m^6 A 。

因此,准确识别 m^1 A 和 m^6 A 修饰位点以揭示这些修饰的机制和功能非常重要。

图片

图示:修饰的化学结构,m^1 A 修饰,m^6 A 修饰。(来源:论文)

随着高通量测序技术的显著进步,已经构建了许多鉴定 m^1 A 和 m^6 A 修饰位点的实验方法,如 m^6 A-CLIP、m^6 A-miCLIP、m^1 A-seq、m^1 A-ID-seq 等。然而,实验方法昂贵且耗时,这限制了它们的广泛使用。

到目前为止,已经开发了一些使用 NLP 和 DL 网络的预测方法来预测 m^6 A 或 m^1 A 位点。其中,Gene2Vec、DeepPromise、EDLm^6 Apred 是甲基化位点预测最具代表性和先进的方法。

然而,现有方法具有以下缺点。从 NLP 的角度来看,这些方法专注于局部语义信息,而忽略了上下文和全局信息。从 DL 的角度来看,CNN 可以从空间数据中学习局部响应,卷积核的不同尺度会影响网络的学习能力,这可能导致序列的表示学习不完整。

总而言之,这些方法应用时均存在众多致命缺陷。

因此中国矿业大学的研究人员提出 EMDLP,以 NLP 和 DL 的方式识别 RNA 甲基化位点。

EMDLP 如何工作?

首先,EMDLP 是以 NLP 的方式表示 RNA 序列。因此,采用 RNA 词嵌入、One-hot 编码和基于 GloVe 的改进的词向量表示学习方法 RGloVe 三种编码,从局部和全局信息的角度来破译站点。

然后,使用扩张卷积神经网络(DCNN)和 BiLSTM 构建扩张卷积双向 LSTM 网络(DCB)模型,以提取甲基化位点预测的潜在贡献特征。

最后,通过软投票将这三种编码方法整合在一起,以获得更好的预测性能。

图片

图示:EMDLP 和其他方法在独立测试中的表现。(来源:论文)

在 m^1 A 和 m^6 A 上的实验结果表明,EMDLP 的接收器操作特性下的面积(AUROC)分别达到了 95.56% 和 85.24%,并且优于当前最先进的模型。

EMDLP 有机地结合了扩张卷积和 BiLSTM,有助于更好地利用局部和全局信息进行站点预测。

尽管 EMDLP 优于最先进的预测器,但目前仅限于人类,并且由于缺乏足够数量的其他物种的单核苷酸数据集,尚未扩展到其他模式生物。当未来有足够的其他物种 RNA 修饰数据集可用时,测试 EMDLP 的性能是值得期待的。

EMDLP 服务器:http://www.labiip.net/EMDLP/index.php

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04756-1

理论卷积神经网络词嵌入深度学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

模式生物机构

模式生物是一家基因修饰模式生物研发商,主营业务为基因修饰模式生物的研发、生产和技术服务,主要用于生命科学基因功能研究和药物研发等。

http://www.modelorg.com/
推荐文章
暂无评论
暂无评论~