Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

雪松编辑

人类细胞中的基因调控?人工智能来揭示!

转录因子可以理解为基因表达的调控开关。这些基因表达调控关系到整个细胞的变化。医学人员正致力于了解和操纵细胞中各类调控信号,这是发现某些疾病新疗法的有效方法。然而,人类细胞内有众多转录因子,并且不同组织细胞内依赖的转录因子可能不同,可能需要多年的研究才能完成。
芝加哥伊利诺伊大学的一个科学研究小组开发出一种基于机器学习算法软件系统——贝叶斯推理转录因子活动模型 (Bayesian inference transcription factor activity model,BITFAM)。该系统可以帮助科学家更有效地从scRNA-seq 数据中识别基因的转录因子,预测单个细胞中哪些转录因子最活跃。研究人员在肺、心脏和脑组织细胞中测试了系统。
该研究以「A Bayesian inference transcription factor activity model for the analysis of single-cell transcriptomes」为题,于2021年6月30日发布在《基因组研究》(Genome Research)杂志。
图片

单细胞 RNA 测序(Single-cell RNA sequencing,scRNA-seq)是一种强大的实验技术,可用于研究组织内单个细胞的转录组异质性,并发现具有不同生物学功能的新细胞亚群。当前,大多数分析方法都是使用某种形式的「基因表达数据转换」,来生成 scRNA-seq 低维数据表示,从而识别细胞间的距离。然而,这种基于低维空间中单个细胞的接近度来识别细胞簇的方法,并没有考虑到生物学背景。因此,基于这些表征的下游分析不一定能识别具有明确生物学功能的细胞亚群。此外,这些方法没有办法直接揭示已识别的细胞亚群中的调节机制。

研究人员提出一条思路,可以整合转录因子结合位点的已知生物学数据,然后再分析 scRNA-seq 数据。于是,引入了贝叶斯分层模型。该模型可以使用现有的转录因子 ChIP-seq 数据,来推断 scRNA-seq 数据中的转录因子活性,进而可用于下游分析。因此,BITFAM 是基于「单个细胞的 scRNA-seq 谱差异会反映不同潜在转录因子的活性状态」这一基本生物学原理设计的,模型原理如图示1所示。
BITFAM模型可以(1)将单细胞转录组谱分解为转录因子活性,(2) 确定每个 scRNA-seq 数据集中转录因子靶基因的排序,以及 (3) 执行下游分析,例如细胞亚群的聚类
图片BITFAM模型的概述
研究人员研究了 BITFAM 为每个细胞推断的转录因子 (TF) 活性是否具有生物学意义。在「Tabula Muris 肺数据集」和「血细胞发育数据集」两个数据集中展示了结果示例,它们代表了离散和连续情况下的两种实验研究典型场景(图示2)。
图片由BITFAM推断出的转录因子活性对应于已知的生物功能
研究人员利用 GTRD 数据库,进一步检查了 BITFAM 模型中「学习权重矩阵 W 」的生物学意义。GTRD 数据库整合了从不同细胞类型和生物条件获得的 ChIP-seq 转录因子结合数据。在如此全面的转录因子靶基因列表中,许多转录因子可能有上千个潜在的靶基因;然而,在任何给定的细胞类型中,很可能这些潜在靶基因只有一小部分是真正被转录因子靶向的。BITFAM 学习每个数据集中潜在转录因子目标基因对的权重。这允许 BITFAM 根据权重的后验分布的平均值为任何给定的转录因子生成目标基因的排名(图示3)。
图片BITFAM使用scRNA-seq数据生成首选转录因子靶基因的排名
研究人员还探讨了,推断的转录因子活性如何用于下游分析,以及活性模式是否会反映细胞亚群的不同功能。将 Louvain 算法应用于推断的转录因子活性,评估细胞间推断的转录因子活性距离,并识别细胞簇,这些距离通过 t-SNE 进行可视化。在 Tabula Muris 心脏数据中,BITFAM确定了六个细胞簇,并将它们与生物学定义的细胞亚群(例如心肌细胞、心内膜细胞、成纤维细胞和内皮细胞)进行比较(图示4)。
图片通过推断转录因子活性的细胞亚群聚类
研究人员还在 CRISPRi 数据集中应用了 BITFAM,并使用基于 AUROC 的方法来评估性能。BITFAM 通过结合 ChIP-seq 预测的靶基因的经验知识,推断转录因子活性。为了确定 ChIP-seq 输入数据的重要性,研究人员用随机选择的输入基因替换 ChIP-seq 预测的靶基因,并将 BITFAM 应用于CRISPRi 和 Tabula Muris 肺数据集(图示5)。
图片当先验知识变化时 BITFAM 的性能
研究人员将基于BITFAM和SCIENT推断的转录因子活性谱的聚类质量,与其他常用方法(如Seurat、SIMLR和SC3)的聚类结果进行了比较。基于三个指标评估聚类质量:调整的兰德指数(ARI)、兰德指数(RI)和归一化互信息(NMI);在 Tabula Muris 肺、心脏和大脑数据集中,与其他方法相比,基于 BITFAM 的聚类方法在 ARI、NMI 和 RI 方面显示出优势。
图片BITFAM与其他方法的比较
综上所述,该团队开发了一个贝叶斯因子分析模型来推断单个细胞中的转录因子活性;这种方法可以开发关于每个细胞中调控转录因子的关键生物学假设,同时可以研究细胞亚群的生物功能。在未来,这项技术可能在心脏病、阿尔茨海默病等疾病的治疗中发挥重要作用。
论文链接:https://genome.cshlp.org/content/31/7/1296
相关报道:https://phys.org/news/2021-06-machine-algorithm-genes-individual-cells.html
理论人工智能基因调控人类细胞
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~