Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器学习揭示基因组在单个细胞中的表达差异

编辑 | 萝卜皮

在单个人类细胞的微观视界内,蛋白质和 DNA 的复杂折叠和排列决定了每个细胞的命运:哪些基因被表达,哪些基因被抑制,这决定了细胞是保持健康还是发生病变;宏观角度则反映了一个人的健康状况。单细胞 Hi-C (scHi-C) 技术可以识别三维 (3D) 染色质组织的细胞间差异性,但测量相互作用的稀疏性会带来分析挑战。

卡内基梅隆大学的研究人员提出了一种基于超图表示学习框架的算法——Higashi,可以合并单个细胞之间的潜在相关性,以增强接触图的整体插补。Higashi 优于现有的 scHi-C 数据嵌入和插补方法,并且能够识别单个细胞中的多尺度 3D 基因组特征,例如区室化和 TAD 样域边界,从而可以精确描绘其细胞间差异性。

此外,与两种模式的单独分析相比,Higashi 可以将在同一单元格中联合分析的表观基因组信号合并到超图表示学习框架中,从而改进单核甲基 3C 数据的嵌入。在来自人类前额叶皮层的 scHi-C 数据集中,Higashi 确定了 3D 基因组特征与细胞类型特异性基因调控之间的联系。Higashi 还可以扩展到分析单细胞多路染色质相互作用和其他多模式单细胞组学数据。

该研究以「Multiscale and integrative single-cell Hi-C analysis with Higashi」为题,于 2021 年 10 月 11 日发布在《Nature Biotechnology》杂志。

机器学习揭示基因组在单个细胞中的表达差异


先简单说一下

用于探测细胞核内 3D 基因组组织的 Hi-C 等全基因组映射方法的快速发展,揭示了多尺度高阶染色质结构,包括 A/B 区室、更精细的核区室化、拓扑关联域 (TAD) 和 染色质环。这些不同尺度的 3D 基因组特征与重要的基因组功能相互关联,例如基因转录和 DNA 复制;但 3D 基因组结构的变化及其在单细胞中的功能意义仍不清楚。

新兴的 scHi-C 技术已经可以分析单个细胞中 3D 染色质结构的基因组图谱,以及染色体构象与其他表观基因组特征的联合分析。这些令人兴奋的 scHi-C 检测有可能在广泛的生物环境中以单细胞分辨率全面揭示基本的基因组结构和功能联系。

然而,能够充分利用稀疏 scHi-C 数据来分析 3D 基因组特征的细胞间变异性的计算方法非常缺乏。为了解决 scHi-C 数据的稀疏性,已经开发了用于嵌入数据集和接触图插补的方法。然而,当前最先进的基于「重启随机游走」的插补方法,例如 scHiCluster,对于更可靠的单细胞 3D 基因组分析还有很大的改进空间。

当前的插补方法还需要在内存中具有接触图大小的密集矩阵上进行存储和计算,这在高分辨率分析 scHi-C 数据时是不切实际的。目前还不清楚如何可靠地比较跨单个细胞的 TAD 样域边界和 A/B 区室,以分析它们的细胞间变异性和功能连接。因此,需要新的算法来填补这些空白。

研究人员提出的 Higashi 是一种使用超图表示学习框架、进行多尺度和集成单细胞 Hi-C 分析的新计算方法。使用由 Higashi 生成的嵌入和估算的 scHi-C 接触图,确定了 A/B 区室分数和 TAD 样域边界的细胞间差异性;这在揭示细胞功能方面很重要。应用于最近的人类前额叶皮层 scHi-C 数据集证明了 Higashi 在复杂组织中揭示细胞类型特异性 3D 基因组特征的独特能力。作为迄今为止最系统的一种新方法,Higashi 能够改进对 scHi-C 数据的分析,有可能为 3D 基因组结构的动态及其在不同生物过程中的功能影响提供新的思路。

具体做了些什么

Higashi 概要

Higashi 的关键算法设计是将 scHi-C 数据转换为超图。这种转换保留了来自 scHi-C 接触图的单细胞分辨率和 3D 基因组特征。具体来说,嵌入 scHi-C 数据的过程现在等同于学习超图的节点嵌入,而输入 scHi-C 接触图就变成了预测超图中缺失的超边。Higashi 使用了该团队最近开发的 Hyper-SAGNN 架构,这是一个通用的超图表示学习框架,专门针对 scHi-C 分析(方法)进行了大量的新开发。

机器学习揭示基因组在单个细胞中的表达差异


图示:用于 scHi-C 分析的 Higashi 框架概述。(来源:论文)

Higashi 有五个主要组成部分:

  • 将 scHi-C 数据集表示为超图,其中每个细胞和每个基因组 bin 分别表示为细胞节点和基因组 bin 节点。单细胞接触图中的每个非零条目都被建模为连接相应细胞和该特定染色质相互作用的两个基因组位点的超边。这种形式主义集成了 scHi-C 的嵌入和数据插补;
  • 基于构建的超图训练超图神经网络 (NN);
  • 从训练好的超图神经网络中提取单元节点的嵌入向量用于下游分析;
  • 使用经过训练的超图 NN 来插补单细胞 Hi-C 接触图,并灵活地结合细胞之间的潜在相关性以增强整体插补,从而能够更详细和可靠地表征 3D 基因组特征;
  • 通过几种新的计算策略,可靠地比较了跨单个细胞的 A/B 区室分数和 TAD 样域边界,以促进分析这些大规模 3D 基因组特征的细胞间变异性及其对基因转录的影响。

此外,研究人员开发了一个可视化工具,允许对嵌入向量和来自 Higashi 的估算接触图进行交互式导航,以促进发现。

Higashi 嵌入反映了细胞类型和细胞状态

研究人员试图证明 Higashi 通过嵌入有效地从稀疏的 scHi-C 数据中捕获了 3D 基因组结构的可变性。首先在具有多种细胞类型或已知细胞状态信息的三个 scHi-C 数据集上测试了该方法,分辨率为 1-Mb。训练后,Higashi 嵌入被投影到二维空间,使用统一流形近似和投影 (UMAP) 进行可视化。研究人员发现 Higashi 嵌入表现出与底层细胞类型和细胞状态相对应的清晰模式。

机器学习揭示基因组在单个细胞中的表达差异


图示:评估 Higashi 生成的嵌入。(来源:论文)

Higashi 稳健地估算 scHi-C 接触图

除了用于细胞类型识别的 scHi-C 数据的降维之外,Higashi 还可以估算稀疏的 scHi-C 接触图。在这里,研究人员试图通过多次评估来证明插补准确性。为了进行比较,研究人员包括了来自 scHiCluster 的推算结果。请注意,scHiCluster 将每个 scHi-C 接触图表示为一个单独的图,而 Higashi 将整个 scHi-C 数据集表示为一个超图,允许在不同的细胞之间潜在地协调插补。

具体而言,在 Higashi 中,当对单元格 i 的接触图进行插补时,其嵌入空间中的 k 最近邻将通过利用它们的潜在相关性(方法)来对插补做出贡献。为了证明在 Higashi 中采用的这种设计的优势,研究人员概括了来自 Higashi 的估算结果,k 为 0 和 4(分别称为「Higashi(0)」和「Higashi(4)」)。对超参数 k 进行了敏感性分析,并表明 Higashi 对 k 的选择具有高度稳健性。

机器学习揭示基因组在单个细胞中的表达差异

图示:基于多重 STORM 3D 基因组成像数据模拟的 scHi-C 数据的不同插补方法的评估和可视化(来源:论文)

Higashi 确定区室化变异性

研究人员探索了 Higashi 生成的增强型接触图如何促进单细胞分辨率的多尺度 3D 基因组分析。A/B 区室反映了与基因组功能有明显联系的大规模染色体空间分离。迄今为止,使用 scHi-C 数据的系统 A/B 隔间注释几乎没有取得什么进展,主要是因为数据稀疏。在这里,研究人员应用 Higashi 以 50-Kb 的分辨率估算 WTC-11 scHi-C 数据。该团队设计了一种计算连续隔室分数的方法,以便分数在整个细胞群中直接可比,并反映详细的细胞间差异。

机器学习揭示基因组在单个细胞中的表达差异

图示:Higashi 能够以单细胞分辨率详细描述 3D 基因组特征及其与基因转录的联系。(来源:论文)

Higashi 揭示了单细胞 TAD 样结构域边界

最近基于染色质构象的多重 STORM 成像的工作证明了单细胞中 TAD 样结构的存在和细胞间变异性。然而,对于稀疏的 scHi-C 数据,TAD 样域的识别仍然极具挑战性。研究人员开发了一种基于 Higashi 插补从单个细胞中识别 TAD 样域边界变异性的方法。分析是在 WTC-11 scHi-C 数据集上进行的,分辨率为 50-Kb。

机器学习揭示基因组在单个细胞中的表达差异

图示:单细胞间类TAD域边界校准示意图。(来源:论文)

人类前额叶皮质单细胞3D基因组特征

为了证明 Higashi 分析复杂组织的单细胞 3D 基因组结构的能力,研究人员将其应用于上述来自人类前额叶皮层的 sn-m3C-seq 数据。研究人员展示了 Higashi 框架的结果,该框架仅通过 sn-m3C-seq 中的染色质构象信息以 100kb 的分辨率进行训练,以评估其在分析 scHi-C 数据方面的独特优势。

研究人员发现 Higashi 嵌入(仅使用 scHi-C)能够解决神经元亚型之间的差异(分离 Pvalb、Sst、Vip、Ndnf、L2/3 和 L4-6),同时保持与非神经元细胞的清晰分离 类型。这表明,与 Higashi 一起分析,单独的 scHi-C 具有足够的信息来区分复杂的神经元亚型。相比之下,scHiCluster 无法使用 scHi-C 清楚地区分这些神经元亚型。

机器学习揭示基因组在单个细胞中的表达差异


图示:Higashi利用来自人类前额叶皮质的scHi-C数据识别复杂的细胞类型和细胞类型特异性TAD样结构域边界。(来源:论文)

机器学习揭示基因组在单个细胞中的表达差异

图示:基于来自人类 PFC 的 sn-m3c-seq 数据集的单细胞 A/B 区室分数的 UMAP 可视化。(来源:论文)

一个中肯的讨论

在这项工作中,研究人员开发了用于多尺度和综合 scHi-C 分析的 Higashi。广泛评估证明了 Higashi 在嵌入和插补方面优于现有方法的优势。此外,通过改进 scHi-C 接触图的数据增强,研究人员在 Higashi 开发了方法来系统地分析可变多尺度 3D 基因组特征(A/B 区室分数和 TAD 样域边界),揭示它们在基因转录中的影响。通过应用来自人类前额叶皮层的 scHi-C 数据集,Higashi 能够识别复杂的细胞类型并揭示与细胞类型特异性基因调控有密切联系的细胞类型特异性 TAD 样域边界。

Higashi 的关键算法创新是将 scHi-C 数据转化为超图,与现有方法相比具有独特的优势。首先,这种转换保留了 scHi-C 的单细胞精度和 3D 基因组特征。其次,将整个 scHi-C 数据集建模为超图,而不是将每个接触图建模为单独的图,允许跨细胞协调信息,通过利用细胞之间的潜在相关性来改善嵌入和插补。第三,虽然主要关注 scHi-C 数据,但 Higashi 中的超图表示高度可推广到其他单细胞数据类型。作为原理证明,Higashi 可以扩展到以集成方式分析具有甲基化的共同测定的 scHi-C 数据,与两种模式的单独分析相比,性能显着提高。

有几个方向可以进一步增强Higashi。作为一种数据驱动的方法,尽管在嵌入空间中使用来自相邻单元格的信息的独特能力,Higashi 至少需要一个中等大小的 scHi-C 数据集来实现高性能。此外,尽管与现有方法相比,Higashi 在使用超图表示学习框架,估算 scHi-C 接触图方面具有明显优势;但由于其高度多样化,在远程交互(≥10 Mb)的估算方面仍有很大的改进空间。

尽管如此,这种数据流将为设计更多算法创造更多机会,从而促进对人类基因组在细胞内的组织方式及其在健康和疾病中的功能的科学理解。

「这是一个快速发展的领域。」团队负责人马坚说,「实验技术发展迅速,计算发展也是如此。」

论文链接:https://www.nature.com/articles/s41587-021-01034-y

相关报道:https://phys.org/news/2021-10-machine-high-definition-glimpse-genomes-cells.html

产业
1
暂无评论
暂无评论~