毅航、王念、云舟编译

论文Express | CNN:果蝇视觉理解能力几何?

众所周知,黑腹果蝇(Drosophila melanogaster)生活在神秘的社交性的触觉和气味世界中,但他们能够在多大程度上感知和整合静态视觉信息是一个备受争议的热门话题。一些研究人员指出黑腹果蝇光学系统的分辨率是有限的,但是其他研究人员则注意到在黑腹果蝇看似相同的外表下,有证据表明他们实际上拥有惊人的个体识别和视觉学习能力。

在本篇文章中,我们将利用机器学习从理论上证明每个黑腹果蝇在视觉上是不同的。我们还将使用果蝇的视觉系统与当前卷积神经网络的惊人相似性来研究黑腹果蝇的视觉理解能力。我们发现,尽管它们的光学分辨率有限,但是黑腹果蝇的神经元结构能够提取和编码丰富的特征集,允许蝇类以惊人的准确度重新识别同种个体。这些实验证明了黑腹果蝇生活在远超人们预期的更加复杂的视觉世界中。

介绍

有越来越多的证据表明黑腹果蝇生活在一个令人惊讶的丰富和复杂的世界中,这个世界包括群体行为,社区学习以及攻击行为认知。这些社会行为通常被认为是与视觉识别无关的,因为黑腹果蝇的复眼被认为视力不足,以至于不能在这些行为中发挥作用。果蝇的复眼有大约有850个镜头单元(小眼),每个都能在空间中捕获一个点,所以这样眼睛的分辨率肯定很低。此外,传统上认为由小眼肌间角度决定的细节水平使得除了运动或规则模式之外的任何东西都无法被黑腹果蝇辨别(图 1B)。

图1. 黑腹果蝇的理论视力。

代表了各种理论压缩后的果蝇图片。A:雌性黑腹果蝇的图片通过32×32压缩重新调整大小。 B:相同的图片,但是使用AcuityView调整了3个体长的观察距离,使用4.8°的肌间角。C:相同的图片和距离,但使用由Juusola等人确定的有效视力的保守估计约1.5°。

然而,最近的生理实验表明,只要它们以特定的速度呈现(对于一个被拴住的蝇类),黑腹果蝇对细节的反应可以达到1.16°。 这些速度恰好与黑腹果蝇的自然扫视步态一致,这强烈表明自然行为下的黑腹果蝇具有比4.8°的肌间角更精细的分辨率。这种超敏锐度是在感光器水平下发现的(由于横纹肌运动改变了光接收的角度),这意味着它将允许大部分视觉网络用于信息处理。在这种超敏锐度和果蝇社交所需的视觉距离下,小眼的数量而非小眼肌间角度成为了限制因素(图1)。这种敏锐度可能会使它们与意蜂(Apis mellifera)处于相同的视觉等级(尽管分辨率较低),并赋予他们结合其它的视觉特征来识别出人类的面孔的能力。

这种时空编码和增加的视敏度可能解释了最近的研究,这些研究表明黑腹果蝇不仅可以理解其它蝇类,还可以使用视觉解码社会意义(例如雌性果蝇选择雄性果蝇表型和果蝇主动暴露于寄生蜂)。综合起来,这些结论大大提升了果蝇在物体识别中更大程度地利用视觉的可能性,甚至可能使用它来区分物种或性别(用于补充其它已知的传达此类信息的嗅觉线索)。

即使使用黑腹果蝇的超敏锐度光感受器,所接收的图像也仅为约29×29单位(或像素,图1)。我们想知道这个低分辨率图像中是否包含足够的绝对信息来识别彼此之间的个体。一种方法是对深层卷积网络(DCN)进行工程化以区分单个黑腹果蝇,因为DCN被设计为学习、提取和使用图像中发现的任何有用特征,如果高度工程化后的DCN有足够的个体水平差别,我们就会想要研究黑腹果蝇是否也能利用这种低分辨率图像并从中提取有意义的信息。如果每个个体果蝇看起来都是独特的,并且黑腹果蝇的视觉网络具有足够的能力,视觉可能还在识别物种或性别以外的过程中发挥作用,这或许有助于确定社交场合中熟悉或不熟悉的同种生物。

果蝇视觉系统的高度结构化和分层组织(图2C)表明了蝇类的视觉系统是如何从低分辨率图像中提取信息的。在输入处,小眼被逐个包装,但是它们单独调节的光感受器在空间上被布置成穿过感受区域的六单元卷绕的滤波器。反过来,这个光感受滤波器的输出是连接到几个“列”光感受器输出的下游髓质神经元的输入。这种滤波器卷积与使用来自一个滤波器的输出作为另一层的“特征映射”相结合,是当今主导计算机视觉的DCN的工程化架构的标志(图2A中展示出了一个这样的DCN)。正如DCN可以采用低级图像表示并将它们编码为语义表示一样,黑腹果蝇的视觉系统似乎非常适合揭示图像中的语义。

图2. 我们的蝇眼融合了工程和生物架构。

“标准”卷积网络的示意图,我们的蝇眼模型和果蝇的简化视觉连接组。A:Zeiler和Fergus的体系结构,接收个体黑腹果蝇的原始181×181像素图像。 B:我们的蝇眼模型,接收个体果蝇的29×29缩小图像,并显示特征图之间的连接。最初的三个特征图是定制的6像素卷积滤波器('R1-R6',黑色路径)和两个1×1卷积滤波器('R7'和'R8',红色路径)。所有其他卷积都是本地连接的滤波器。有关完整的连接图,请参见S1 Table。C:飞行视觉回路的简化图,其接收另一个黑腹果蝇的相同比例缩小的图像。我们模型中实现的神经元之间的连接被展示出来,其表明层之内和层之间的连接和联系。

在这项工作中,我们考察了黑腹果蝇是否可以在理论上分类和识别其复杂的视觉环境。为了确定在黑腹果蝇的社会行为中可以获得多少绝对潜在的视觉差异,我们研究了人类和人类启发的深度卷积模型在多天内重新识别单个黑腹果蝇的能力。

为了研究黑腹果蝇是否能够在蝇类之间使用这种个体水平的视觉差异,我们在一个同种重新识别范式中研究了果蝇视觉系统的模型。本研究建立在超敏锐视力的同种信息和生理证据的行为结果的基础上,并提供了一个原则证据,以消除一个经常被吹捧的论点,即黑腹果蝇的视觉能力仅限于低级物体和模式检测。在这里,我们将提出证据表明黑腹果蝇可能会看到并生活在比过去人们所意识到的更丰富的社会环境中。

材料和方法

简化的黑腹果蝇眼睛模型

我们使用标准深度学习库(Keras)实现了虚拟飞行视觉系统。我们的项目使用大约25,000个人工神经元,而果蝇在每个视觉半球中有大约60,000个神经元。我们故意没有模拟在结构上暗示出对运动反应的神经元,因此我们能够聚焦在整个髓质的“模块化”神经元(具有1个神经元/柱)上。神经元类型之间的联系是从已发表的连接组中提取的。我们在模型上强加了人为的层次结构,消除了神经元“子类型”之间的自我连接(即L1和L1之间没有连接,或L1和L2),虽然我们允许初始层进入多个下游层,但我们消除了“上游”连接。最后的小叶状人工神经元模仿Wu等人的研究成果,小叶状人工神经元的层次根据其轴突穿透深入系统进行排序。我们对果蝇视觉系统进行建模的能力进一步局限于连接性,忽略了信号(兴奋性或抑制性)以及神经元的内在膜特性。一旦这些特性被发现并将其集成到连接组中,连接组就能创建更丰富的生物模拟。除了从生物学获得灵感,该模型在图2B中展示了其它灵感来源(图2C)。S1 Table描述了完整的连接图和层次结构,S2表展示了该模型在传统图像分类数据集上的比较性能。S1 Methond中提供了其他详细信息。

蝇类数据获取

黑腹果蝇在25-12℃的12h-12h亮-暗循环中饲养。羽化后1-4小时收集10只雄性和10只雌性并分别饲养。在第三天,将羽化后的蝇单独地吸入到圆形丙烯酸培养皿(直径60mm,高2mm)中。用标准顶置LED灯照明这些蝇,用GRAS-20S4M以灰度拍摄15分钟,每秒16帧。连续三天重复这一过程,每只蝇产生14,400×3张图片。每次拍摄都在ZT 8的2小时内完成。收集了20只蝇的三个独立数据集。

果蝇数据处理

数据集中的每个视频都使用CTRAX进行跟踪,跟踪结果中的位置和朝向信息都会用来对图片进行校正。所以每个图片中的果蝇都处于中心位置,并且头朝上。所以这些图片包含了果蝇在采集场景中的各种角度的信息,背部的、腹面的和侧面的都有。训练集合中包括了第一天和第二天等量的数据,包括每只果蝇前75%的数据(12240帧)。验证集合是最后的15%的数据(2160帧)。测试数据集是第三天采集的所有数据。所有的数据需要进行标准化操作,也就是用原始数据减去所有数据的均值再除以标准差。对于ResNet18、Zeiler和Fergus模型,输入的181*181的数据需要做适配,适配方法包括:(1)降低成33*33,中心剪裁成29*28,然后整体扩大成224*224大小;(2)扩大成256*256,中心剪裁为224*224(有效利用中心的158*158的像素)。

人类的表现

为了验证人类的表现,这里用Matlab设计了一个GUI图形程序,程序中展示了人类观察者对于果蝇的三个角度的影像,分别是背部、腹部和侧方向。然后要求观察者从第3天获得的20幅图像(20只果蝇)中选择其中一幅属于实例果蝇(S3和S4图)。注意这个过程其实是一个比较/匹配的设定(compare/match setup)而不是一个学习和泛化的过程。这些图片会随机的被变成29×29。

结果

在本文的工作中,我们想知道各种结构(无论是否植根于生物学)是否能够检测果蝇在若干天之间的差异(这显然是一个非人工任务)。我们获得了三轮的数据,每轮中都有10只公的和10只母的果蝇,观察了连续3天的时间。我们知道年龄和经验会对果蝇的识别产生细微的影响,所以我们在第一天和第二天的时候对网络模型进行训练,然后在第三天的时候对他们进行识别。我们使用ResNet18来验证系统的有效性,它达到了人类识别的水平(Zeiler 和 Fergus)。这些结果展示在表格1中(Table 1)。

表格1. 黑腹果蝇模型识别性能

作为基准,我们使用了ResNet18的结构(请见S1 Fig)。这是实验中能够获得最高性能的网络结构,它能够得到0.94的F1-score(使用三个数据集)。虽然平均性能良好,但我们注意到实验中存在个别比较特殊的果蝇,这些果蝇在几天内会变得很难识别(例如,在样本集2中,果蝇10在第3天的准确率为37%,而其他两个果蝇S4表之间的混淆程度相等)。迫使图像通过瓶颈(bottleneck,这种操作保证所处理的信息内容和fly-eye模型使用的降分辨率的信息类似)操作会让ResNet18的F1-score降低0.11。但是Zeiler和Fergus结构对于bottleneck操作鲁棒性很高,在这种结构下F1-score只降低了0.08,但是达不到ResNet18的高精度。

Fly-eye模型获得了一个相对来说较高的F1-score=0.75,这个结果没有比复杂的ResNet18(在低分辨率情况下)精度低很多。为了消除Fly-eye模型测量绝对大小和形状以及强制提取相对特征的能力,我们随机地将图像(训练和测试)大小重新调整了多达25%,而不保留比例(参见S2 Fig示例)。我们的fly-eye系统能够达到超过人类的性能,即便是在没有进行绝对大小测量的情况下也是如此。在图片的识别工作中,它能得到0.55 F1-score的性能。我们还发现,fly-eye模型几乎不会错误的将公的果蝇识别成母的(在S5-S7表格中,当重新识别ID在性别上崩溃时,F1-score超过了0.99)。

为了得到人类识别的性能基线,我们找了一些志愿者来识别果蝇(S3和S4)。这是一个别具挑战的任务,因为果蝇生活在一个固定的空间中,而人能够通过各个角度的信息进行判断。因为这项任务不是一般的物体识别,我们找的志愿者都是一些很有经验的fly-pushing科学家。人类识别的效果并不好,但是波动不大,平均的F1-score=0.11(当像素缩小到29×29的时候F1-score=0.08,如果将原图给出的话,F1-score=0.08)。

讨论

我们的结果表明果蝇有从视觉环境中提取语义信息的先天能力。虽然我们目前还在研究它们究竟是怎么对这个世界编码并认识世界的,但我们也不应该忽视它的视觉理解能力。

从低分辨率的图像中理解其意义并不是什么新鲜的想法,例如在32×32的CIFAR10数据集上CNNs能成功进行识别,也能在其他的数据集上成功应用。我们还注意到,我们的fly-eye模型在一个这样的分类任务(CIFAR10上的F1得分是0.54,见S2表)上的表现比较差,这个任务包含对象的大范围比例和位置变化。

对无法应对规模和大小的可变性的一个解释是,与其他结构不同,黑腹大蠊的视觉系统能够维持输入的维度(柱状髓质神经元)。DCN通过汇聚层和跨步卷积之类的小技巧来降低维度。这就给低级特征检测器带来了更大的位置不变性。如果没有它们,我们的果蝇眼模型只有当物体的距离固定时才能表现的不错。因此,人类倾向于假定,每个人都有先天的依赖经验的距离,在这个距离的前提下,视觉信息能够被优先理解。并且这可能是社交距离和交互距离的决定性因素之一。

从该模型自身和它强大的编码能力(不止是对于简单的“looming”和“movement“的编码)中,我们可以预测出,最高等级的特征图(feature maps)可以对应于视觉系统中的丰富的语义含义。然后这些小叶神经元会将复杂事物的识别进行编码,然后会刺激他们产生不止是简单的避免对象(object-avoidance)行为。

虽然一些小叶柱状神经元(如LC11)似乎专门用于高敏感度的小物体运动检测,但是其他神经元似乎在编码更复杂的信息。这些其他LC神经元(如LC17)在受到刺激时似乎会引发社会背景依赖行为。

我们也了解了其他使用DCNs对昆虫种类分类的研究。但是其中最相关的研究(关于生物体识别)仅在1分种内就完成了(IDTracker2.0)。在此研究之前,DCN仅对时间上非常接近的图像有效。我们观察到特定果蝇的反常精度损失,一些果蝇的准确度低于40%(S4表)。

这种在几天内重新识别果蝇的能力开启了实验的可能性,特别是考虑到这种性能是通过静态图像来评估的(16fps产生大约1000个ID/min的估值)。这与人类重新识别果蝇的能力形成鲜明的对比,后者在低分辨率下几乎没有成功的概率。

很显然,所有的模型都可以在一定程度上学会识别果蝇,并强调果蝇的个体水平差异。对于DCN而言,重新识别果蝇实际上比CIFAR10更容易(至少对于在相同距离处获得的果蝇的居中图像的情况下)。即使是在某种意义上和人类的表现能媲美的模型也比人类的表现好上10倍。人类无法将果蝇分辨开的原因还是个迷。

无论区分个体果蝇是否具有进化上的好处,人类确实具有令人难以置信的模式识别能力。这可能只是因为缺乏经验(虽然我们尝试通过仅适用经验丰富的果蝇研究人员作为志愿者来标记解决这个问题)或者是因为更加神秘的模式识别盲点造成的。在任何一种情况下,这些研究结果都会促进新的实验,以进一步了解人类视觉和经验的机制以及它们为何会在这种情况下失败。

机器学习的从业者不断地推动深度网络,现在他们也更多地使用一些由生物学启发的设计和训练算法。随着他们变得更具有生物学的现实性,神经生物学家可以使用这些模型来生成视觉系统中信息处理方式的假设。

我们认为本文的研究非常适合将两个领域的研究联合起来,以继续解开进化论对于视觉处理的解决方案。这个新领域提供了一个简单的,基因和实验易处理的机制。通过它我们可以观察到视觉系统的运作,这无疑将揭示果蝇以及我们所有人观察这个世界的秘密。

结论

这些结果有助于解释最近传统意义上比较有争议的发现,即果蝇可以解决相对详细的视觉意义(雌性选择雄性和寄生蜂的暴露)。我们在文中展示了每个果蝇具有视觉上可区分的特征,这些特征会持续数天。这一事实,加上他们的超敏锐度和他们的视觉网络的理论能力,是反对果蝇只能看到模糊的运动的传统观念的坚实论据。事实上,在某些情况下,果蝇可能有能力看到和区分一个更为多样性的视觉世界,甚至可能比我们看到的还要精彩。

相关报道:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0205043

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

理论卷积神经网络CNN机器学习
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

特征检测技术

特征检测是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征检测的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

暂无评论
暂无评论~