Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

一种多用途深度学习方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预测和插补的集成

编辑 | 萝卜皮

CITE-seq 是一种单细胞多组学技术,可同时测量单细胞中 RNA 和蛋白质的表达,已广泛应用于生物医学研究,特别是免疫相关疾病和其他疾病,如流感和 COVID-19。尽管 CITE-seq 激增,但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容,但这带来了计算挑战。

首先,组合多个数据集容易产生需要解决的批处理效应。其次,很难组合多个 CITE-seq 数据集,因为不同数据集中的蛋白质面板可能仅部分重叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很重要,因为这允许利用尽可能多的数据来揭示细胞群的异质性。

为了克服这些挑战,宾夕法尼亚大学的研究人员提出了 sciPENN,这是一种多用途的深度学习方法,支持 CITE-seq 和 scRNA-seq 数据集成、scRNA-seq 的蛋白质表达预测、CITE-seq 的蛋白质表达插补、预测的量化和插补不确定性 ,以及从 CITE-seq 到 scRNA-seq 的细胞类型标签转移。跨越多个数据集的综合评估表明,sciPENN 优于其他当前最先进的方法。

该研究以「A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation」为题,于 2022 年 10 月 27 日发布在《Nature Machine Intelligence》。

单细胞多组学分析在生物学研究中的普及,提高了科学家对细胞异质性和亚群的理解。特别是,通过测序(CITE-seq)协议对转录组和表位进行细胞索引的可用性不断提高,极大地促进了这些进展。CITE-seq 允许同时分析 RNA 基因表达以及一组细胞表面蛋白。

众所周知,蛋白质比 RNA 丰富得多,并且在功能上直接参与细胞信号传导和细胞间相互作用。CITE-seq 具有发现单模态单细胞 RNA 测序 (scRNA-seq) 遗漏的细胞异质性的潜力。尽管 CITE-seq 多模态表达分析潜力巨大,但技术困难仍然存在。相对于 scRNA-seq 数据,生成 CITE-seq 数据的成本仍然很高。

一种潜在的解决方案是学习 RNA 和蛋白质之间的关系,从大型参考数据集中借用信息,然后对 scRNA-seq 数据进行蛋白质预测。Seurat 4 和 totalVI 已被引入来实现此功能,但两者都面临局限性。TotalVI 尤其是 Seurat 4 的计算成本很高。

此外,研究更复杂的场景,其中蛋白质面板不完全重叠的多个 CITE-seq 数据集被合并,使研究人员能够增加细胞数量。但是,Seurat 4 没有这样做的能力。虽然totalVI理论上可以做到,但是这个问题还没有探索过。

图示:sciPENN 概述。(来源:论文)

为了应对这些挑战,宾夕法尼亚大学的研究人员开发了 sciPENN(单细胞插补蛋白嵌入神经网络),这是一种深度学习模型,可以预测和估算蛋白质表达,整合多个 CITE-seq 数据集,并量化预测和估算不确定性。

研究人员通过设计内部网络结构以及 sciPENN 的损失函数和优化策略来实现这一点,以最大限度地提高其蛋白质预测和插补精度。该网络构建为密集、batchnorm、ReLu、dropout 层块的堆栈,可帮助模型逐步学习更精细的潜在细胞表示。这些设计选择使 sciPENN 在监督蛋白质预测方面表现良好。


图示:使用 Seurat 4 PBMC 数据集作为参考的 MALT 数据集中的蛋白质表达预测。(来源:论文)

在该研究的三个监督分析中,与 totalVI 和 Seurat 4 相比,sciPENN 始终将参考 CITE-seq 数据集与潜在嵌入中的查询数据集集成为最佳。sciPENN 的相关性和 RMSE 指标也始终具有最高的蛋白质预测准确度。这种高蛋白质预测准确性使 sciPENN 能够准确地恢复蛋白质表达模式。

图示:单核细胞数据集中的蛋白质表达预测。(来源:论文)

CITE-seq 分析的一个挑战是多个 CITE-seq 数据集的集成。这种整合并非微不足道,因为不同 CITE-seq 数据集的蛋白质面板通常有一些不重叠,这会阻止简单的连接。为了规避这一点,研究人员为 sciPENN 引入了一种审查损失函数方案,其中蛋白质损失被掩盖,并且当它从细胞中丢失时不会有助于反向传播。

这允许 sciPENN 从具有部分不重叠蛋白质面板的多个 CITE-seq 数据集中学习,估算每个组成 CITE-seq 数据集的缺失蛋白质,甚至在从部分重叠的 CITE-seq 数据集学习后预测外部 scRNA-seq 数据集中的蛋白质表达,这是 totalVI 和 Seurat 4 无法完成的任务。此外,sciPENN 比 totalVI 和 Seurat 4 快一个数量级,这使其成为综合 CITE-seq 和 scRNA-seq 数据分析的理想工具。

论文链接:https://www.nature.com/articles/s42256-022-00545-w

入门深度学习蛋白质
暂无评论
暂无评论~