Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

新SOTA,仅几个标记基因即可自动标记,复旦大学开发空间转录组学语义注释贝叶斯框架

图片

编辑 | 萝卜皮

空间转录组学的出现,彻底改变了组织内基因表达的研究。然而,注释空间点的生物特性仍然是一个挑战。

为了解决这个问题,复旦大学的研究人员引入了 Pianno,一个基于标记基因自动进行结构语义注释的贝叶斯框架。

Pianno 在精确注释各种空间语义(从不同的解剖结构到复杂的肿瘤微环境)以及估计细胞类型分布(跨各种空间转录组学平台生成的数据)方面的卓越能力。

研究人员使用 Pianno 结合聚类方法,揭示了人类新皮质深层 3 中区域和物种特异性的兴奋性神经元亚型,展示了人类新皮质的细胞进化过程。

Pianno 作为一种准确高效的工具,能够替代劳动密集型的手动注释程序,并在与无监督聚类方法结合时揭示新的生物学洞见。

该研究以「Pianno: a probabilistic framework automating semantic annotation for spatial transcriptomics」为题,于 2024 年 4 月 2 日发布在《Nature Communications》。

图片

空间转录组学技术如 10× Visium、Slide-seq 和 Stereo-seq 已经彻底改变了研究组织内基因表达模式,同时保留了空间信息。然而,仅仅获取组织内特定物理坐标的基因表达概况,还不足以完全理解生物系统的复杂性。

想要深入理解则需要识别每个空间点的生物学意义,即模式注释。这些模式可以代表大脑区域、肿瘤或正常组织以及细胞类型,类似于计算机视觉中的「语义分割」概念。为此,科学家引入了空间转录组学语义注释的概念,旨在将组织内的空间点分配给预定义结构或细胞类型的模式。

在生物学解释方面,虽然已经开发了许多基于机器学习的方法来识别空间单元(点)的聚类并使用标记基因解释它们的生物学意义,但这些方法通常缺乏将这些聚类与已知结构明确联系起来的能力。

在细胞类型层面,常用的工具依赖于去卷积方法来探索细胞类型的空间分布,但这些工具受到单细胞 RNA-seq 数据需求和批次效应潜在干扰的限制。虽然学界开发了基于标记基因的方法,来进行多重原位成像数据的细胞分割和空间转录组学中的细胞类型解卷积,但仍缺乏基于标记基因的空间语义注释工具。

为了解决现有方法的局限性,复旦大学的研究人员开发了 Pianno(Pattern image annotation),这是一种贝叶斯框架,可使用预定义的标记列表自动注释空间转录组学中点的生物学意义。Pianno 具有独特的功能,只需几个标记基因即可自动标记模式,包括解剖结构和细胞类型。该框架适用于各种空间转录组学技术生成的数据。

图片

图示:Pianno 框架工作流程。(来源:论文)

Pianno 框架工作流程

Pianno 采用概率框架基于一组标记基因对空间转录组学进行语义注释。Pianno 的输入包含空间转录组数据,例如空间坐标、原始基因计数和初始标记基因列表,该团队为每个模式提供了一个已知标记。

注释过程由两个连续步骤组成:初始分割步骤和细化步骤。

在初始步骤中,每个基因的空间表达都被转换为灰度图像。然后,对于每个目标模式,通过聚合与该模式相关的标记基因的灰度图像来创建模式图像。然后,考虑到初始注释结构中不同的表达模式,通过识别每个模式的其他候选标记基因来更新初始标记列表。这个标记列表被集成到后续的细化步骤中。

在细化阶段,建立贝叶斯分类器来估计属于不同模式的每个空间点的后验概率。然后根据后验概率更新注释。

Pianno 提供了两种更新注释的方法。对于语义标注中的连续模式,研究人员建议将概率分布作为模式图像并将其返回到模式检测器以进行更新的标注。对于分散或尖锐形状的图案,则建议直接根据概率值更新标注,因为它保留了详细信息。

总之,Pianno 不仅简化了注释过程,而且还采用启发式方法,使用初始单个标记基因来识别其他标记基因,从而最大限度地减少对作为输入的已知标记数量的要求。

Pianno 卓越的性能

在后续的评估中,与最先进的空间聚类方法相比,Pianno 表现出了卓越的性能,能够准确识别与手动标记相似的模式。此外,Pianno 在重建细胞类型的空间分布方面优于反卷积方法。应用 Pianno,研究人员发现了新皮质第 3 层和第 5 层神经丝基因的大脑区域和物种特异性空间表达模式。

图片

图示:Pianno 在皮质结构重建方面的表现评估。(来源:论文)

Pianno 性能的提升归功于其在模式检测模块中对标记基因的创新处理,为贝叶斯分类器提供了强有力的先验分布。该分类器将马尔可夫随机场(MRF)与空间泊松点过程(sPPP)无缝整合,利用 sPPP 模拟来自 RNA-seq 的计数数据,并考虑空间邻近点之间的协方差。在随后的 MRF 设计中,Pianno 分析了转录组和空间相似性,以及点之间的全局一致性,从而确保了标记的准确细化。

图片

图示:Pianno 语义注释揭示了新的区域和物种特异性细胞组织。(来源:论文)

虽然 Pianno 在空间语义注释方面展现出强大的能力,但其效果与明确的初始标记和组织分子知识密切相关,这可能限制了算法发现未知生物学模式的能力。

未来的研究应优先考虑整合额外信息维度,例如通过整合苏木精-伊红(H&E)或 4',6-二氨基-2-苯基吲哚(DAPI)图像获得的细胞大小和密度信息。这些增强措施可能减少 Pianno 对标记的依赖,从而提高其整体稳健性。

此外,将 Pianno 与标记识别流程整合是一个有前景的方向,这将为 Pianno 自动优化其标记选择提供机会,增强其在标记选择中的抗噪声能力,减少对先验知识的依赖。这些优化可以共同提高 Pianno 的稳健性和适用性。

论文链接:https://www.nature.com/articles/s41467-024-47152-4

理论
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

贝叶斯分类器技术

基于贝叶斯概率定理的分类器

后验概率技术

在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。同样,后验概率分布是一个未知量(视为随机变量)基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

马尔可夫随机场技术

具有马尔可夫性质的随机场。 随机场:当给每一个位置(site)按照某种分布随机赋予相空间(phase space)的一个值之后,其全体就叫做随机场

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

细胞分割技术

细胞分割指从医学影像中分割出细胞图像,是细胞特征提取和细胞识别的基础。

推荐文章
暂无评论
暂无评论~