Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

凯霞作者

在线学习用于「单细胞多数据整合」,无需从头开始计算

单细胞测序作为一种相对较新的技术,研究人员能够根据细胞表达的基因等特征来识别和分类细胞类型。但是,这类研究会产生大量数据,其中包含数十万到数百万个细胞的数据集。 
近日,美国密歇根大学的研究团队开发了一种新算法,使用在线学习,大大加速了大量数据集处理。与先前方法相比,效率的提高不会牺牲数据集的对齐方式和聚类保留性能 。该算法将对整合不断增长规模的单细胞多组数据集越来越有用。
该研究以「使用在线学习的迭代单细胞多组学集成」(Iterative single-cell multi-omic integration using online learning)为题发表在《自然生物技术》(Nature Biotechnology)杂志上。
图片
众所周知,人体是由细胞组成的。然而,令人惊讶的是,科学家们仍在尝试确定组成我们的器官并有助于我们健康的各种细胞。
长期以来,细胞类型的定性特征包括形态学、细胞表面蛋白的存在或缺失以及广泛的功能。
最近,高通量单细胞测序技术使研究人员能够描述多种分子模式,包括基因表达,染色质可及性和DNA甲基化。整合不同的单细胞数据集为全面和定量定义离散细胞类型和连续细胞状态提供了巨大的机会。
然而,目前的单细胞数据集成并非旨在集成多种模式或无法扩展为海量数据集。此外,现有方法都不能在不从头开始重新计算的情况下合并新数据。 
Welch说:「我们在之前发表的LIGER方法[1]的核心部分扩展了非负矩阵分解方法,开发了一个在线学习算法——在线集成非负矩阵分解(iNMF)算法。该算法可解决以上限制,允许对不同组学技术生成的单细胞数据集进行可扩展和迭代的集成。」
图片iNMF的示意图:将输入的单细胞数据集联合分解为共享的(W)和特定于数据集的(Vi)元基因以及相应的元基因表达水平或细胞因子负荷(Hi)。这些元基因和细胞因子负载量提供了细胞「身份」的定量定义,以及其在生物学环境中的变化方式
在线iNMF两个重要优点的是:(1)通过小批量多次循环数据来集成大型单细胞多组数据集;(2)集成持续到达的数据集,训练期间的任何时候都无法使用整个数据集。 
研究表明在线学习可用于单细胞数据集成的三种不同场景。
高效收敛而不失准确性 
Welch说:「我们的技术允许任何拥有计算机的人都可以对整个生物体进行分析。这正是该领域发展的方向。」 
在实验中,研究人员评估了在线iNMF算法在成年小鼠皮层数据集上的收敛性,该数据集包含来自额叶皮层的156,167个细胞和来自后皮层的99,186个细胞。在线iNMF算法在训练集和保留测试集上的收敛速度都比以前的批处理iNMF算法快。在线iNMF在不同生物学背景下的其他几个数据集上也表现出卓越的性能。
在线iNMF算法所产生的可视化在质量上与批处理iNMF非常相似,表明几乎相同的数据集对齐方式和对所有三个数据集合的原始聚类结构的准确保留。
所需时间和内存少
在线iNMF使用更少的时间和内存即可产生最先进的单细胞数据集成结果。
研究人员从同一只成年小鼠的额叶和后叶皮质数据中抽取了5个不断增大的数据集(从10, 000到255, 353个细胞)。将在线iNMF与批处理iNMF以及两种最新的单细胞数据集成方法进行基准测试。结果表明在线iNMF所需的运行时间不会随数据集大小的增加而大幅增加,并且存储每个微型批处理所需的内存量与单元总数无关。整体上,在线iNMF是最快的方法。
此外,在线iNMF算法使用的内存远远少于其他任何方法,内存使用量主要由mini batch大小决定。
可扩展性
为了证明在线iNMF的可扩展性,研究人员在大量前人研究的数据集上进行了验证,比如小鼠器官发生细胞图谱(MOCA)等。
「由于在线iNMF一次只能处理一个mini batch,我们的方法允许通过互联网而不是从磁盘流处理数据集。」Welch说,「为了演示此功能,我们创建了一个HDF5文件,其中包含鼠标皮质数据集(255,353个细胞),将文件保存在远程服务器上,然后直接通过Internet读取mini batch。以这种方式处理皮质数据集大约需要18分钟,而使用本地磁盘读取大约需要6分钟。」
无需从头开始
Welch解释说,「我们的新方法允许将新数据集添加到现有数据集中,而无需重新处理旧数据集。」
「这对于越来越多地生成数百万个细胞集至关重要。」Welch说。「今年,已经有五到六篇论文具有200万个或更多的单元,而仅用于存储原始数据所需的内存量远比任何人在他们的电脑上拥有的要多。」
Welch将在线技术比作Facebook和Twitter之类的社交媒体平台进行的连续数据处理,这些平台必须处理用户不断生成的数据,并为人们的订阅提供相关的帖子。「在这里,我们在世界各地的实验室进行着实验并发布其数据,而不是人们写推文。」
 这一发现有可能大大提高其他「雄心勃勃」的项目效率,如人体图谱和人体细胞图谱。Welch说:「了解身体细胞的正常相互作用是了解它们如何在疾病中出错的第一步。」

参考文献:

[1]Welch, J. D. et al. Single-cell multi-omic integration compares and contrasts

features of brain cell identity,

https://pubmed.ncbi.nlm.nih.gov/31178122/

论文链接:

https://www.nature.com/articles/s41587-021-00867-x

参考内容:

https://pubmed.ncbi.nlm.nih.gov/31178122/

理论单细胞测序在线学习
暂无评论
暂无评论~