编辑 | 萝卜皮
研究表明,通过转录后 RNA 修饰进行的表观转录组调控,对于所有种类的 RNA 都是必不可少的。准确识别 RNA 修饰,对于了解其目的和调控机制至关重要;并且,这些信息将可能对众多人类疾病的研究带来巨大帮助。然而,识别 RNA 修饰位点的传统实验方法相对复杂、耗时且费力。
机器学习方法已应用于以计算方式提取和分类 RNA 序列特征的过程中,这可以更有效地补充实验方法。最近,卷积神经网络(CNN)和长短期记忆(LSTM)因其在表示学习中的强大功能而在修改点预测方面取得了成果。
然而,CNN 可以从空间数据中学习局部响应,但不能学习序列相关性。LSTM 专门用于顺序建模,可以访问上下文表示,但与 CNN 相比缺乏空间数据提取。出于这些原因,所以十分有必要使用自然语言处理(NLP)、深度学习(DL)构建预测框架。
中国矿业大学的研究人员提出了一种集成多尺度深度学习预测器(EMDLP),以 NLP 和 DL 方式识别 RNA 甲基化位点。它有机地结合了扩张卷积和双向 LSTM(BiLSTM),有助于更好地利用局部和全局信息进行站点预测。
该研究以「EMDLP: Ensemble multiscale deep learning model for RNA methylation site prediction」为题,于 2022 年 6 月 8 日发布在《BMC Bioinformatics》。
背景
RNA 分子的功能多样性通过转录后 RNA 修饰来丰富,它调节 RNA 生命的所有阶段。到目前为止,已经发现了大约 160 种不同形式的 RNA 修饰。
其中,N^1-甲基腺苷(m^1 A)修饰是一种普遍存在的RNA修饰,发生在与甲基相连的腺嘌呤碱基的氮 1 位,它与呼吸链、神经发育退化和介导抗生素耐药性细菌等问题有关。
另一种影响腺嘌呤的修饰是 N^6-甲基腺苷(m^6 A)修饰,这是哺乳动物中最丰富的修饰,它发生在腺苷碱基的氮 6 位上,它往往对人类的生长和疾病有着深远的影响。然而有趣的是,m^1 A 在碱性条件下偶尔也会变为 m^6 A 。
因此,准确识别 m^1 A 和 m^6 A 修饰位点以揭示这些修饰的机制和功能非常重要。
图示:修饰的化学结构,m^1 A 修饰,m^6 A 修饰。(来源:论文)
随着高通量测序技术的显著进步,已经构建了许多鉴定 m^1 A 和 m^6 A 修饰位点的实验方法,如 m^6 A-CLIP、m^6 A-miCLIP、m^1 A-seq、m^1 A-ID-seq 等。然而,实验方法昂贵且耗时,这限制了它们的广泛使用。
到目前为止,已经开发了一些使用 NLP 和 DL 网络的预测方法来预测 m^6 A 或 m^1 A 位点。其中,Gene2Vec、DeepPromise、EDLm^6 Apred 是甲基化位点预测最具代表性和先进的方法。
然而,现有方法具有以下缺点。从 NLP 的角度来看,这些方法专注于局部语义信息,而忽略了上下文和全局信息。从 DL 的角度来看,CNN 可以从空间数据中学习局部响应,卷积核的不同尺度会影响网络的学习能力,这可能导致序列的表示学习不完整。
总而言之,这些方法应用时均存在众多致命缺陷。
因此中国矿业大学的研究人员提出 EMDLP,以 NLP 和 DL 的方式识别 RNA 甲基化位点。
EMDLP 如何工作?
首先,EMDLP 是以 NLP 的方式表示 RNA 序列。因此,采用 RNA 词嵌入、One-hot 编码和基于 GloVe 的改进的词向量表示学习方法 RGloVe 三种编码,从局部和全局信息的角度来破译站点。
然后,使用扩张卷积神经网络(DCNN)和 BiLSTM 构建扩张卷积双向 LSTM 网络(DCB)模型,以提取甲基化位点预测的潜在贡献特征。
最后,通过软投票将这三种编码方法整合在一起,以获得更好的预测性能。
图示:EMDLP 和其他方法在独立测试中的表现。(来源:论文)
在 m^1 A 和 m^6 A 上的实验结果表明,EMDLP 的接收器操作特性下的面积(AUROC)分别达到了 95.56% 和 85.24%,并且优于当前最先进的模型。
EMDLP 有机地结合了扩张卷积和 BiLSTM,有助于更好地利用局部和全局信息进行站点预测。
尽管 EMDLP 优于最先进的预测器,但目前仅限于人类,并且由于缺乏足够数量的其他物种的单核苷酸数据集,尚未扩展到其他模式生物。当未来有足够的其他物种 RNA 修饰数据集可用时,测试 EMDLP 的性能是值得期待的。
EMDLP 服务器:http://www.labiip.net/EMDLP/index.php
论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04756-1