从大量 RNA 测序数据中反卷积细胞状态丰度可以为现有数据增加相当大的使用价值,但实现高分辨率和高精度反卷积仍然是一个挑战。
浙江大学与西湖大学的研究团队开发了 MeDuSA,一种基于混合模型的方法,利用单细胞 RNA 测序数据作为参考来估计批量 RNA 测序数据中沿一维轨迹的细胞状态丰度。
MeDuSA 的优点主要在于估计每个状态的细胞丰度,同时将相同类型的剩余细胞单独拟合为随机效应。广泛的模拟和真实数据基准分析表明,与现有的一维轨迹方法相比,MeDuSA 大大提高了估计精度。
研究人员将 MeDuSA 应用于队列水平的 RNA 测序数据集,揭示了细胞状态丰度与疾病或治疗条件以及细胞状态依赖性转录遗传控制的关联。该团队提供了一种沿一维轨迹进行细胞状态反卷积的高精度和高分辨率方法,并证明了其在表征各种生物过程中细胞状态动态方面的实用性。
该研究以「Mixed model-based deconvolution of cell-state abundances (MeDuSA) along a one-dimensional trajectory」为题,于 2023 年 7 月 13 日发布在《Nature Computational Science》。
细胞反卷积是一种计算技术,旨在根据组织水平的「大量」组学数据估计细胞组成。随着大量 RNA 测序 (RNA-seq) 数据的可用性不断增加,细胞解卷积已成为估计感兴趣组织中细胞类型组成的关键方法。
这一方法论的进步极大地促进了细胞医学研究,从而了解不同细胞类型在动态疾病过程中的作用(例如,量化实体瘤中的免疫细胞浸润),探索细胞水平的遗传调控机制(例如,细胞类型特异性表达数量性状基因座分析),并调整关联分析中由细胞类型组成引起的偏差(例如,使用细胞类型组合物进行协变量调整)。
在过去的十年中,许多细胞反卷积方法被开发出来并进行了基准测试,包括 BayesPrism、CIBERSORT 和 MuSiC 等。他们中的大多数共享一个典型的工作流程,即从参考生成细胞类型特异性基因表达谱(GEP),比如来自单个细胞子集的批量 RNA-seq 数据或单细胞 RNA-seq (scRNA-seq) 数据,并利用参考 GEP 计算批量 RNA-seq 数据中的细胞类型组成。
然而,同一类型的细胞不是同质的,而是分布在生物过程中的多种状态,这些状态以上下文相关的方式出现,例如激活、分化或退化。这种分布可能因环境、疾病状况和基因不同的个体而异。在这方面,细胞反卷积的进一步机遇和挑战在于估计批量RNA-seq数据中不同状态的细胞丰度(即细胞状态丰度)。
单细胞 RNA-seq 提供了数千个不同细胞的转录组快照,为研究各种生物过程中的细胞状态提供了途径。在 scRNA-seq 数据中,可以通过计算对不同状态的细胞进行排序,从而推断细胞状态轨迹。细胞群体作图(CPM)是一种细胞反卷积方法,专门设计用于利用从参考 scRNA-seq 数据推断的「细胞状态空间」来估计批量 RNA-seq 数据中的细胞状态丰度。
CPM 将细胞状态空间划分为多个网格,通过从每个网格中随机采样细胞来构建 GEP,并结合数千次重复的估计丰度以获得每个细胞的单个丰度。虽然 CPM 大大提高了反卷积分辨率,但估计细胞状态丰度的准确性仍然可以提高,这主要是因为它只关注每次采样重复中的少量细胞,而不考虑剩余细胞。
浙江大学与西湖大学的研究人员介绍了 MeDuSA (mixed model-based deconvolution of cell-state abundances),这是一种高精度、高分辨率的细胞反卷积方法,它利用 scRNA-seq 数据作为参考来估计批量 RNA-seq 数据中沿一维轨迹的细胞状态丰度。
MeDuSA 的特点是使用线性混合模型 (LMM) 将所讨论的细胞状态(可以是单个细胞,也可以是多个细胞的平均值,简称焦点状态)拟合为固定效应,并将相同细胞类型的其余细胞单独拟合为随机效应,以解释细胞之间的相关性。该模型提高了反卷积精度,因为随机效应成分允许每个细胞对大量基因表达具有特定的权重,从而更好地捕获大量基因表达的方差,并改善焦点状态的细胞(作为固定效应拟合)和相邻状态的细胞(作为随机效应拟合)之间的共线性问题。
图示:通过分析真实的大容量 RNA-seq 数据对细胞反卷积方法进行基准测试。(来源:论文)
与其他方法相比,MeDuSA 的反卷积精度大幅提高,主要是因为将焦点状态下的细胞拟合为固定效应,将其余细胞单独拟合为随机效应。平均而言,在该研究使用的 RNA-seq 数据集中,与分箱策略相比,这种方法解释了批量基因表达中额外 10-40% 的差异。
MeDuSA 非常适合生物场景,其中潜在机制涉及细胞状态的连续转变,例如细胞发育、分化或退化。在涵盖广泛研究领域的四个案例研究中(在食道癌中的应用,在 COVID-19方面的应用,皮肤黑色素瘤方面的应用,在基因表达的细胞状态依赖性遗传调控的应用),研究人员发现细胞状态丰度与疾病状况、临床结果、致病机制和治疗暴露相关。这些结果概括了不同生物条件下细胞功能的变化,有助于科学家了解细胞在疾病病因学中的作用。
图示:正常食管组织和肿瘤食管组织中角化轨迹上皮细胞的丰度估计值。(来源:论文)
此外,研究人员表明 MeDuSA 可用于检测批量 RNA-seq 数据中的 csd-eQTL。这些结果为未来的研究提供了信息,以绘制大型队列中的 csd-eQTL,并将 csd-eQTL 与全基因组关联研究的数据整合,以识别与疾病相关的细胞状态,并揭示复杂性状和疾病的遗传关联的生物学机制。
图示:识别 csd-eQTL。(来源:论文)
在实践中应用 MeDuSA 时有几个注意事项。
首先,参考 scRNA-seq 数据中的细胞状态轨迹需要预先注释。虽然研究人员用了不同的方法,包括基于扩散图的方法(Slingshot)、基于RNA速度的方法(scVelo)和基于分数的方法(CytoTRACE),用于细胞轨迹推断,显示了 MeDuSA 的兼容性,但是,有偏差的细胞状态轨迹注释可能会导致有偏差的细胞状态丰度估计。
其次,用于生成参考 scRNA-seq 数据的测序技术是反卷积分析的另一个偏差来源。scRNA-seq 中最大的偏差来源之一是 dropout 事件,特别是对于短长度方法,例如 10X Genomics 实施的方法。研究人员通过过滤掉少于 10% 的细胞中表达的基因并对焦点细胞状态下的细胞的基因表达谱进行平均来纠正这种潜在的偏差(方法)。
第三,当前版本的 MeDuSA 中建模的细胞状态轨迹是一维向量,它可能无法完全描绘细胞转变的复杂性,特别是在多个细胞轨迹的情况下。未来需要开展更多工作,将 MeDuSA 扩展到多维空间上的细胞状态建模。
第四,越来越多的空间转录组学研究表明,空间坐标上的细胞异质性可能与未知的生物机制有关。在这方面,使用空间转录组数据作为参考来恢复大块组织的空间结构将是扩展 MeDuSA 的另一个有趣的未来方向。
论文链接:https://www.nature.com/articles/s43588-023-00487-2åå