Yuka Liu作者Joni编辑

用CNN识别大脑神经元突触连接

发表于 Nature Methods 的一篇论文提出了一个使用深度卷积神经网络随机森林分类器的框架 SyConn,可自动识别线粒体、突触和它们的细胞类型,从而得到有丰富注释的突触连接矩阵。

论文:https://www.nature.com/articles/nmeth.4206

引言

人脑是一个智能的复杂机器。从某些方面看,这个比喻是准确的,并为研究者提供了一种关联我们的大脑的方法。我的大脑可分为 4 部分:额叶、顶叶、颞叶和枕叶。这种划分方式的一大指标是功能——即该区域负责执行怎样的任务。比如,颞叶通常与听觉处理和嗅觉有关,枕叶通常与视觉信息处理相关。

但是,大脑中的大部分神经行为都非常复杂,不同程度地涉及到多个大脑区域。而且不同的功能并不局限于特定的大脑区域。模糊不清的情况到处存在。因此,当出现一种与大脑相关的疾病时,就会出现功能性缺陷,而从宏观角度却难以找到其潜在原因。再回到机器的比喻,科学家现在在思考能否在微观层面消除其中的“模糊性”,即研究大脑的基本单元(神经元)之间的连接。连接组(connectome)是大脑中神经连接的完整地图,能展现神经元彼此连接以及助力不同功能的方式。

体积电子显微镜

体积电子显微镜(volume EM)是一种常用的神经回路重建技术。体积电子显微镜会使用大脑体积的三维电子显微镜成像来重建神经形状和连接情况的细节。体积电子显微镜的不同之处最早是为检查中枢神经系统(CNS)开发的。正如引言中提到的那样,许多神经退行性疾病无法以自上而下的方式追踪。因此,有必要以足够的分辨率分析轴突、树突和单个突触活动。

相比于组织检查中常用的荧光标记方法,标准电子显微镜不会受到稀疏标记或超高分辨率光学成像的要求的限制。这些染色可能得到所有膜和突触的相对无偏差的染色。因此,体积电子显微镜可用于建模完整的突触前和突触后神经元连接。这也是可用于体积中所有神经元的一种标准操作,这允许我们构建完整的连接图,即大脑的连接组。

随着数据处理技术的发展,近年来定量方法已变得愈渐重要。体积电子显微镜能够基于大数据集实现解剖学上的回路重建,从而提供之前无法获得的神经元计算方面的见解。随着体积电子显微镜的发展进步以及计算能力的增长,现在已能通过足够规模的数据集重建完整的神经元微回路。这些新发现已经为多项研究提供了支持,并且表明解剖学上的回路重建确实能帮助科学家理解神经元计算。

突触连接推理流程(SyConn)

脊椎动物和无脊椎动物的神经系统密集地堆积着交织的神经元,它们的轴突、树突和突触相互连接或重叠在一起。因此,想要搞清楚大量神经元之间的连接详情并非易事。根据从体积电子显微镜获取的大数据集重建的连接组是一个高维网络,这意味着分析它将需要大量时间和精力。尽管技术进步已经帮助我们解决了获取足够的高分辨率数据的问题,但分析这些数据还仍然是个问题。如图 1 所示,如果我们想要以人工分析方式重建完整细节,那将耗费数以百万计的小时数。

图 1:人工分析不同数据集所需的估计时间。其中 j0126 是斑胸草雀的数据集,其中包含 21,850 个神经元片段;斑马鱼幼虫大脑数据集有 100,000 个神经元;小鼠大脑灰质数据集有 71,000,000 个神经元。上面的彩色横条表示 SyConn 自动化了除初始人工骨架重建(红色)之外的所有步骤(绿色)。各列给出了基于体积电子显微镜数据集生成连接矩阵所需的步骤。

因此,必须开发一种能够自动分析所有可用数据的方法,以让连接组的构建更加可行。在这篇论文中,研究者开发了一个自动化突触连接推理流程(SyConn),其需要所生成的神经突骨架和分类器训练数据作为输入,能够得到有丰富注释的连接图,即连接组的组分。在这个推理流程,骨架会在第一步被转换为体积重建,之后是突触和图像数据中其它超微结构的对象,比如囊泡和线粒体。对超微结构的检测能进一步增强神经突重建。

SyConn 框架使用了深度卷积神经网络(CNN)和随机森林分类器来自动识别线粒体、突触和它们的细胞类型,从而得到有丰富注释的突触连接矩阵。研究者专门开发了一个高级卷积神经网络库 ElektroNN 并将其整合到了 SyConn 中,可有效使用图形处理单元(GPU)来进行计算。通过去除多余的计算和稀疏的训练标签,ElektroNN 针对大数据集上的训练进行了优化,能降低模型训练时间,实现更快的推理。

图 2:与突触后神经元接触的突触前神经元图示。囊泡向突触间隙传递神经递质,其中携带了生物化学信息。作为能量供给器的线粒体也具有丰富的功能。

为了将骨架转换成体积重建,研究者训练了一个递归式 3D CNN 模型来检测神经突之间的屏障区域(膜和细胞外空间,ECS)。然后 ECS 可被用于准备用于分割的样本。研究者没有使用两个神经元之间的接触区域作为评估它们是否彼此连接的标准,而是选择检测与突触连接(synaptic junctions)在一起的囊泡云和线粒体。这些超微结构对象富集在突触神经元的前后,因为它们是神经元之间信息传递的重要因素。因此,如果检测到囊泡云和线粒体共同出现了,那就能很好地说明存在连接。从技术上看,研究者训练了一个多类 CNN 来执行这一步骤。

需要指出,见诸报告的最佳结果与测试集大小之间存在依赖关系。这个多类 CNN 在小测试集上也得到了相当不错的结果,可能是因为这种体量的连接数仍然可被处理。尽管实验中的表现很不错,但还不能肯定这样的表现能否继续在更大的数据集上维持,因为更大的数据集可能有更大的多样性。

图 3:与其它最佳方法的比较。图中的 F1 分数反映了精度和召回之间的调和平均值。可以看到,SyConn 的表现优于其它方法。

基于之前检测出的超微结构对象,SyConn 还能通过将这些对象的相对位置分配到神经突上来进一步细化重建结果。这个过程有助于亚细胞组件和神经元细胞类型的分类。在这篇文章中,研究者整合了一个随机森林分类器(RFC)来分类树突的各个部分:属于棘突头部、颈部还是树突轴。增强后的细胞重建是细胞类型识别所必需的,而构建连接矩阵和后续的分析又会用到细胞类型识别。通过沿神经突比较线粒体和囊泡云的体量,研究者发现有最高放电率的神经元类型有最高的密度。对神经元的超微结构对象和相关放电率的研究也许能让我们了解它们在化学固定前在生物体内的生理学特性。

讨论

连接组学近几年发展迅速。密集的连接组分析受限于突触的标记时间和后续的回路分析步骤。SyConn 是一种能够大幅降低分析时间的好方法,而且错误率很低,因为无需人工校对(误差可接受)。对于数据集质量影响了 SyConn 的表现的情况,人工检查将有益于准确度。根据这些结果,我们还可以看到通过使用预训练的网络和后期训练,深度 CNN 仅需要最少的训练数据就能提取出超微结构信息。

尽管自动化能显著提升效率,但具有更大变化性和复杂性的自动神经突重建尚未被研究。目前,专家仍在生物数据分析中发挥着重要作用,但我们可以预见未来他们的作用将越来越小。相对而言,学会了所有这些规则的机器将可能接替这项工作。你认为这个领域的专家可被计算机完全替代吗?

参考文献

https://www.csuchico.edu/~pmccaffrey/syllabi/CMSD%20320/362unit4.html

http://www.sciencedirect.com/science/article/pii/S0968432814000250

http://www.sciencedirect.com/science/article/pii/S0959438811001887

技术分析
相关数据
神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

推荐文章
暂无评论
暂无评论~