Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

如何让机器学会看见和想象?

论文一:对自然场景的视网膜反应的深度学习模型(Deep Learning Models of the Retinal Response to Natural Scenes)(McIntosh et al. 2016)


论文链接:https://arxiv.org/abs/1702.01825


概述:本文中训练了一类卷积神经网络(CNN),它们用于预测视网膜神经节细胞对两种视觉刺激的反应,并评估自身性能。结果表明,在近似真实视网膜细胞的活动方面,CNN 比线性-非线性(LN)、广义线性模型(GLM)更加合适。最重要的是,CNN 还展示了几个近似模仿视网膜机制的属性:当响应自然场景而非白噪声时,需要更丰富的特征映射;信息处理活动与真实视网膜细胞中的步骤一致;针对具有潜在噪声和循环性侧向连接的 CNN 的调整。这些属性甚至可以进一步模仿在视网膜活动中观察到的峰值变异及对比度适应。


推荐理由:目前对视觉机制的大部分理解,源于对人为刺激(如白噪声)的研究以及将模型推广到自然刺激之中;然而,人为刺激和自然刺激之间存在巨大差异,从而使泛化过程变得不透明。CNN 在近似视网膜神经节细胞真实行为的过程中表现出了强大的性能,展现了该模型精准捕获感觉这种回路响应的潜力,并提供了该回路内部结构和功能的有关信息,而这将对计算机视觉和神经科学领域的研究大有裨益。

论文二:多区域神经表示:一种解码人类大脑视觉刺激的全新模型(Multi-Region Neural Representation: A novel model for decoding visual stimuli in human brains)(Yousefnezhad and Zhang 2016)


论文链接:https://arxiv.org/abs/1612.08392


概述:多变量模式(Multivariate Pattern,MVP)分类技术采用了基于任务的 fMRI 数据集后,在解码大脑活动的视觉刺激方面具有极大潜力。大多数现有技术方法应用的是 fMRI 信号的时间序列和人工选择的相关区域(Regions of Interests,ROI),而这会导致实验结果中噪声和稀疏的问题。本文的作者提出了一种新模型,即通过自动检测 ROI,以及分析活动水平最大的脑图像的快照,来改进当前的 MVP 技术。他们同样在分析结果的可视化以及噪声的降低方面做出了努力。


推荐理由:对于大多数没有学习过计算机科学的神经科学家而言,诸如 MVP 之类的机器学习技术并不容易理解或实现;并且由于大多数神经成像技术十分昂贵,所需的巨大数据量也成为另一个问题。本文提出的改进使得对 MVP 分类结果的解释更易于与认知状态相关。为了降低大脑研究所需的成本,不同的 fMRI 数据集也可以通过推荐的过程相结合。若能取得进步,将进一步促进神经科学领域机器学习的实现。

论文三:视觉信息的深度驱动的 fMRI 解码(Deep driven fMRI decoding of visual categories)(Svanera et al. 2017)


论文链接:https://arxiv.org/abs/1701.02133


概述:本文的作者提出了一种新型解码模型,它能够将从观看视频时获得的 fMRI 数据链接到视频特征之中(这些特征由基于核典型相关分析(Kernel Canonical Correlation Analysis)的 faster R-CNN 提取而出)。该模型允许 fMRI 表示与 CNN 最后一层(fc7)之间可能的线性(或近似线性)关系;以这种方式,可以不通过多级表示学习的实现而使用 CNN 的分辨能力,而这种实现由于已知的脑数据十分有限而缺乏。


推荐理由:本文涉及了上述两篇论文中所讨论的技术,即计算机视觉中的两个热门话题——CNN 和 MVP 分析。该模型的新颖性在于,它并非在视觉通路的内部机制上工作,因为这需要大量研究来揭示;而是直接利用系统的分辨功能,并设置了 fMRI 数据点和已处理的视频框架之间的关系,对大多数科学家而言,这是使基于 fMRI 的视觉过程解码可视化的更优方法。

论文四:形态:空间与时间知识的形状(Morphognosis: the shape of knowledge in space and time)(Portegys 2017)


论文链接:https://arxiv.org/abs/1701.02272


概述:本文中,作者介绍了一个形态学(morphognosis)的模型,这在该论文中也被称为「知识的形状(shape of knowledge)。该模型的基本结构是一个事件记录的金字塔,其中 x 轴表示时间,y 轴表示时间;因此,金字塔的顶点将是距离和时间都最近的事件。在人工神经网络中,食物搜寻和乒乓球刺激的形态学实现均显示出正面的结果。


推荐理由:知识的视觉表示(visual representation of knowledge)是一个有趣的话题。目前对于知识形成与存储方式的理解,令人无法以一种形式直观地解释知识。但这个模型可能过于简化:它仅仅考虑了时间和空间这类客观因素,但知识也可以很主观。不过食物搜寻和乒乓球刺激的实现所显示的阳性结果表明了这种模型的潜力。

论文五:将级联相关的神经网络转换为概率生成模型(Converting Cascade-Correlation Neural Nets into Probabilistic Generative Models)(Nobandegani and Shultz 2017)


论文链接:https://arxiv.org/abs/1701.05004


概述:基于对人类思维过程的观察,本文的作者致力于转换级联相关神经网络(CCNN/Cascade-Correlation Neural Networks),即一类可以成功解释几个心理现象的鉴别神经网络。通过使用指导向高概率区域探索的马尔可夫链蒙特卡罗方法(Markov Chain Monte Carlo,MCMC),CCNN 可被转换成概率生成模型,并可以生成可能以高概率存在的样本。广泛的刺激已经显示出转化的功效。


推荐理由:本文所做的是赋予机器想象的能力。令人惊奇的是,在实现计算机中人脑的感觉功能与机制的同时,科学家也一直致力于赋予机器类似人类或有机体的重要特征,如知识和想象力。因为除了概率之外还有很多因素给想象力做出贡献,所以在 CCNN 上针对概率生成模型进行的转换对于能否产生真正的「想象能力」并不具决定性作用,但本文绝对是好的开端。

入门理论论文计算机视觉卷积神经网络
1
暂无评论
暂无评论~