Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

中科院图协作学习模型,从空间分辨转录组学数据中阐明肿瘤异质性

编辑 | 萝卜皮

空间解析转录组学 (SRT) 技术使研究人员能够获得对组织结构和细胞发育的新见解,尤其是在肿瘤中。然而,缺乏对生物背景和多视图特征的计算开发严重阻碍了组织异质性的阐明。

在这里,中国科学院的研究团队提出了 stMVC,这是一种多视图图协作学习模型,它在通过注意力分析 SRT 数据时集成了组织学、基因表达、空间位置和生物学背景。

具体来说,采用半监督图注意力自动编码器的 stMVC 分别学习组织学相似性图或空间位置图的特定视图表示,然后在生物上下文的半监督下通过注意力同时整合两个视图图以获得鲁棒表示。stMVC 在检测组织结构、推断轨迹关系和对人类皮层的基准切片去噪方面优于其他工具。特别是,stMVC 可识别乳腺癌研究中与疾病相关的细胞状态及其过渡细胞状态,并通过独立临床数据的功能和生存分析进一步验证。这些结果证明了 SRT 数据的临床和预后应用。

该研究以「Elucidating tumor heterogeneity from spatially resolved transcriptomics data by multi-view graph collaborative learning」为题,于 2022 年 10 月 10 日发布在《Nature Communications》。


SRT 平台最近的技术创新,包括基于测序的技术(例如,10X Genomics Visium 和 Stereo-seq)和基于成像的技术(例如,STARmap),允许在组织的空间环境中分析基因表达模式。这些产生的多种类型的概况:组织学、空间位置和基因表达,为细胞组织和发育生物学提供了新的见解,特别是对于肿瘤的进化。然而,用于生物学发现的 SRT 数据分析仍然具有挑战性,因为它的吞吐量低、灵敏度低、稀疏且嘈杂。

最近,学界已经设计了几种计算方法来分析 SRT 数据。例如,Giotto 使用与单细胞 RNA-seq (scRNA-seq) 类似的处理策略,用于特征选择、降维和无监督聚类。BayesSpace 利用完全贝叶斯统计方法,通过空间邻域结构增强空间测量,进行聚类分析。SpaGCN 采用图卷积网络 (GCN) 方法集成基因表达、空间位置和组织学来识别空间域和空间可变基因 (SVG)。stLearn 将组织学特征与空间位置相结合,对基因表达数据进行归一化,然后进行聚类。Squidpy 将组学和图像分析工具结合在一起,以实现对空间转录组学和蛋白质组学数据的可扩展描述。ClusterMap 结合了 RNA 的物理位置和基因身份,从基于图像的原位转录组学数据中识别出具有生物学意义的结构。DR-SC 和 SC-MEB 利用潜在隐马尔可夫随机场模型整合了基因表达和空间定位进行空间聚类。STAGATE 结合基因表达和空间信息,通过图注意力自动编码器框架检测空间域。

虽然这些方法有许多有趣的发现,但缺乏可以从组织学中有效和全局提取的视觉特征、有效的多视图信息融合以及组织内的全局位置信息等生物学背景,限制了它们在发育生物学中的解开能力。

另一方面,基于 GCN 的模型已成为学习 scRNA-seq 数据(即,通过 scGNN)和 SRT 数据(即,由 SpaGCN 提供)表示的强大工具,然而,这些方法通常研究节点之间具有单一类型接近度的网络,即单视图网络。尽管 SpaGCN 提出了一种 RGB 颜色空间平均策略,在计算任意两个点之间的相似度之前,将组织切片中的组织学数据转换为与 2D 空间相同的测量空间,然后再计算任意两个点之间的相似度,但该策略在一定程度上丢弃了组织切片中的纹理特征。每个点,即该策略在没有充分利用指定区域内灰度变化的空间分布即纹理特征的情况下,从颜色空间中提取颜色特征。

此外,在 SRT 研究中,物理上最接近中心点的 \(K\)-最近点不一定与组织学上与该点最相似的点相同,并且多视图数据之间的距离评估指标也不相同,从而产生具有多个视图的网络。此外,相邻点对确定中心点所属的细胞类型的贡献不相同,这与图注意力网络(GAT)的假设是一致的。更重要的是,不同视图中的信息质量可能不同,因此,最好是一个新颖的模型可以通过 GAT 学习每个视图的表示,同时协同集成多个网络,通过自动训练不同视图的权重来学习鲁棒的表示。

研究人员推断:

(i)属于同一细胞类型但分布在不同区域并与组织中不同细胞类型相互作用的细胞,可能具有不同的细胞状态;

(ii) 每个细胞所属的每个细胞类型(或细胞状态)的确定,与其大小、形状和排列(即松紧或松动)有关,因此组织学的纹理数据具有丰富的信息来表征细胞类型或细胞状态;

(iii) 肿瘤样本免疫荧光染色抗体的颜色可以粗略地标记肿瘤在组织中的位置,产生区域分割,指示与肿瘤发展相关的生物学背景。

基于这些想法,研究人员开发了 stMVC(Spatial Transcriptomics data analysis by Multiple View Collaborative-learning),这是一个整合四层信息的框架,通过基于注意力的多视图图协作学习来阐明组织异质性,即组织学、基因表达数据、空间位置(例如,肿瘤位置)和指示生物背景的区域分割。


图示:stMVC 模型概述。(来源:论文)

stMVC 的特点如下:

(i)对于每个点,全局学习有效的视觉特征,同时通过数据增强和对比学习从组织学中去除伪影;

(ii)通过基于注意力的协作学习策略训练多视图图的权重,包括通过视觉特征训练组织学相似性图 (HSG) 和通过物理坐标通过空间位置图 (SLG) 来学习每个点的稳健表示 ,在区域分割的半监督下;

(iii)对于人类卵巢子宫内膜腺癌 (OEAD) 和乳腺浸润性导管癌 (IDC) 样本,识别竞争方法遗漏的癌症相关细胞状态(即干性、迁移和转移),以及过渡细胞状态 ,这得到其他独立研究的临床数据的进一步验证,证明了 SRT 数据的潜在临床和预后应用;

(iv)小鼠初级视觉皮层样本,使研究人员能够检测层特异性抑制神经元。

特别是,这种多视图图协作学习方法是一个灵活的框架,不仅能够整合来自多源或空间多组学数据的 SRT 数据,还能够整合空间表观基因组学或蛋白质组学数据。

图示:stMVC 能够检测空间域,可视化不同域之间的关系距离,并对 DLPFC 数据集上的数据进行去噪。(来源:论文)

stMVC 使用的组织结构中的这种肿瘤位置信息可以帮助研究人员阐明肿瘤内的异质性。与之前通过用户定义的权重整合组织学和空间位置数据的方法不同,例如 SpaGCN 在基因表达平滑中手动调整组织学的权重,stMVC 采用基于注意力的策略来自动学习不同视图的权重以实现稳健的表示 。

此外,与 stLearn 使用的 ImageNet 预训练的 ResNet-50 模式相比,该团队通过数据增强和对比学习对组织学图像数据进行训练的ResNet-50模型的特征提取框架确实有助于 stMVC 学习更有效的视觉特征。对两个真实癌症数据集的评估证明了上述 stMVC 的优势,它能够检测与分布在不同空间域的细胞干性、迁移和转移相关的细胞状态,为肿瘤异质性提供生物学见解。

特别是,对于乳腺癌数据集,该团队通过识别与癌症相关的细胞状态以及竞争方法遗漏的过渡细胞状态,证明了 SRT 数据的潜在临床和预后应用,临床数据进一步验证了这一点。

图示:stMVC 能够检测在卵巢癌和乳腺癌的不同空间域中分布的细胞状态。(来源:论文)

通过将 stMVC 与基于 SGATE 的三个单视图模型进行比较,研究人员发现 stMVC 在聚类、轨迹推断和去噪方面具有更好的性能,这主要归功于多视图图的协同学习。另外,研究人员观察到基于 SGATE 的空间位置图模型比基于 SGATE 的组织学相似度图模型表现更好,然而,基于 SGATE 的组织学相似性图模型能够捕获一些丰富的边界信息,作为基于 SGATE 的空间位置图模型的补充。因此,研究人员认为,与单视图图相比,通过多视图图对 SRT 数据建模的角度能够更好地理解组织异质性。

图示:stMVC 能够从乳腺癌样本中的浸润癌区域识别肿瘤相关细胞状态及其过渡细胞状态。(来源:论文)

此外,通过与基于均值的策略 stMVC-M 进行比较,研究人员注意到 stMVC 实现了更好且具有可比性的性能。具体来说,(i)关于没有丰富纹理信息的组织学,例如 DLPFC 和卵巢癌样本,stMVC-M 更容易受到来自组织学视觉特征的噪声信号的影响,而 stMVC 更容易通过自动学习多个图中每个图的权重来捕获更精细的结构;(ii) 对于具有丰富组织解剖结构的组织学,如乳腺癌样本,两种模型具有相似的结果。因此,该团队还在 stMVC 模型中实现了基于均值的策略作为用户选择的选项。

到目前为止,开发用于整合来自多个样本的 SRT 数据的模型面临着几个挑战,例如来自多个来源的基因表达数据的批量效应,以及它们的稀疏性和噪声;构建来自不同物理度量空间的点之间的关联;并在创建多个样本之间的关系时去除组织学的伪影。然而,该团队认为(i)通过数据增强和对比学习的视觉特征提取模型为构建不同样本之间的点关联提供了解决方案;(ii) 多视图图协作学习模型可以通过结合多层轮廓数据提供一个新的视角来集成多个 SRT 数据集。

此外,stMVC 可以轻松扩展以处理空间分辨染色质可及性 (ATAC-seq) 或蛋白质组学数据,方法是将基因表达数据中的特征矩阵替换为 ATAC-seq 或蛋白质组学数据中的特征矩阵。另外,随着空间多组学技术的进步,stMVC 可以通过添加更多由不同组学数据创建的图或用多组学数据融合的特征矩阵替换单组学数据的特征矩阵来轻松调整以适应。

与 STAGATE 等单视图 GAT 模型类似,stMVC 可用于分析其他基于测序的技术(如 Slide-seq 和 Slide-seqV2)的 SRT 数据。除此之外,通过利用来自 stMVC 的时空信息,研究人员可以计算空间(动态)网络生物标志物或代谢状态,以准确可靠地量化生物系统并进一步预测其复杂的行为。


图示:stMVC 能够识别小鼠初级视觉皮层 (V1) 数据集中特定层的兴奋性和抑制性神经元。(来源:论文)

该团队通过从人类 DLPFC 数据集中对点进行二次采样,在模拟数据集上对 stMVC 的运行时间进行了基准测试。研究人员观察到 stMVC 速度很快,并且需要 38 min 来处理具有 20 K 个点的 SRT 数据集。特别是,运行时间与输入点的数量近似线性相关,这被认为是 stMVC 处理更大数据集的优势。研究人员表示,在未来的工作中,他们将进一步提高 stMVC 的可扩展性,例如,通过引入子图采样训练策略。

在 stMVC 中仍然存在一些限制:(i)与 ImageNet 预训练的 ResNet-50 模型的视觉特征提取框架相比,训练 SimCLR 的预处理步骤需要更多的计算资源和时间;(ii) 根据抗体的染色密度手动标注肿瘤位置的区域分割。随着对可泛化分割工具的深度学习框架的探索,该团队将在未来的研究中进一步研究创建一个更高效的、具有更自动化架构的 stMVC 模型。

论文链接:https://www.nature.com/articles/s41467-022-33619-9

入门
1
暂无评论
暂无评论~