机器之心编辑部参与

AI复现大脑导航功能:DeepMind重大研究突破再次登上Nature

今天,DeepMind 在《Nature》上新发表的一篇论文引起了业内极大的关注,他们使用深度学习技术来训练一只老鼠,在虚拟环境中追踪其位置,模拟人类大脑的空间导航能力。据文章介绍,该研究能够协助传统的神经科学研究来测试大脑工作原理。

老鼠使用网格细胞来导航,这一能力如今被 AI 程序所模拟。图片:Al Fenn/LIFE Coll

科学家已经使用人工智能来创造复杂神经节点来模拟人类大脑的空间导航能力。这一成绩证明了人工智能算法的强大能力,能够协助传统的神经科学研究来测试大脑工作原理。但研究员称,该方法还并不能取代传统的神经科学家们。

它真的是形式与功能的显著聚合。

该研究的详细计算细节今天发表在 Nature 上,由英国伦敦大学的神经科学家与 DeepMind 的 AI 研究员一起开发。它使用了深度学习技术来训练一只计算机模拟老鼠,在虚拟环境中追踪其位置。

DeepMind 使用人工智能体实现了类似于网格的表示(「网格单元」),它们与觅食哺乳动物的生物网格细胞非常类似。

该项目让科学家们吃惊的是,它自发地产生了类似于哺乳动物大脑中巡航细胞所产生的六边形活动模式,这种模式被称为网格细胞。在老鼠实验中,网格细胞被证明是动物定位自身空间位置的基础。

更重要的是,模拟的老鼠能够使用网格状细胞编码在虚拟迷宫中导航,甚至学会了走捷径。

挪威特隆赫姆(Trondheim)卡弗里系统神经科学研究所(Kavli Institute for Systems Neuroscience)的神经科学家 Edvard Moser 说:「这篇论文突然冒出来,像一发子弹,非常令人兴奋。」。Moser 分享了 2014 年诺贝尔生理学或医学奖,因为他共同发现了位于海马区及其周围的网格细胞和其他与巡航相关的神经元,包括定位细胞和头部方向细胞。

Moser 说:「很显然计算机模型是通过完全不同角度的方法来解决问题,并最终得出了生物学中的网格模式。」他补充到,这项工作是一个强有力的证明,它表明哺乳动物的大脑已经发展出最优的方法来处理这种类型的空间编码。

德国慕尼黑 Ludwig Maximilian 大学的计算神经科学家 Andreas Herz 说:「分析深度学习系统的内部工作原理,并探讨作者是否发现了一个普遍的空间导航计算法则是非常有意思的。」

这种神经网络被训练用于探索虚拟迷宫

深度学习模拟老鼠

研究者使用基于互相交流的循环计算单元的深度学习网络,来测试神经科学中的一个假设:即大脑使用网格细胞通过整合身体移动的方向和速度,映射其在环境中的位置。

首先,研究者生成数据以训练他们的算法。他们模拟老鼠在围栏内觅食时的路径,以及随着模拟动物移动时的头向细胞和位置细胞的活动,但并没有模拟网格细胞的活动。然后他们使用这些数据来训练深度学习网络来识别模拟老鼠的位置。在实验中,他们发现,计算单元中自然地涌现了类似网格活动的六角形模式,正如他们在实验室的真实老鼠大脑上所得到的结果。

来自 UCL 的神经科学家、合作研究者 Caswell Barry 说道,「我们曾经希望能看到这些网格,但当它们真的出现的时候,仍然感到很惊讶。」「我在实验中多次观察到了它们,那种规律性实在是太美了。」


科学家很好奇地发现他们需要调整该系统来添加额外的噪声,使其单元与大脑中的单元更加类似,以使网格状的活动显现。「这是理论神经科学家想到过,但是没有测试过的。」Herz 说道。

然后研究者将该系统融入它的步伐,测试虚拟小鼠是否使用它进行导航。他们将仿真小鼠放在较大的类似迷宫的场地中,虚拟小鼠必须学习如何前往特定目标。作者向该系统添加了另一个系统,引入了学习必需的记忆和奖励函数。仿真小鼠很快就学会通过试错找出目标,并非常熟练地完成任务,优于尝试过该任务的人类专家,小鼠甚至开始走捷径。

研究者发现如果他们故意防止网格图形的形成,则仿真小鼠不再能够高效地走迷宫。「实验中不能对小鼠关闭网格单元。」Barry 说道。

「与神经科学家的合作激励了 AI 研究,」DeepMind 研究者和该研究的共同作者 Andrea Banino 说道,「但是目前这只是制造智能算法的基础研究,还不是应用。」

研究者认为 AI 是测试大脑假设的有效工具,但是它不大可能回答关于大脑如何和为什么使用特定编码方式的问题。「我读到这篇论文时非常兴奋,看起来 AI 或许能够加速我们对大脑导航方面的研究。」Moser 说道。但这不会侵占神经科学家的研究领域。

论文:Vector-based navigation using grid-like representations in artificial agents

摘要:深度神经网络在目标识别、复杂游戏(如围棋、导航)等领域中取得了很大成果,但是在人工智能体方面仍然面临巨大挑战,使用强化学习方法训练的深度神经网络也无法匹敌哺乳动物的空间行为,这种行为主要是受内嗅皮层中网格单元的支持。网格单元被认为提供多尺度周期性表征,可作为编码空间的度量,且对于整合自运动(路径整合)和规划前往目标的直接轨迹(基于向量的导航)非常关键。这里我们开始利用网格单元的计算函数来开发具备哺乳动物导航能力的深度强化学习智能体。我们首先训练一个循环神经网络来执行路径整合,从而得到类似网格单元和其他内嗅单元类型的表征。然后我们发现该表征能够为智能体提供在陌生、变化的环境中定位目标的有效基础,通过深度强化学习优化导航的主要目标。


具有类网格(grid-like)表征的智能体性能已经超过了人类专家和对比智能体,此外从类网格单元推导出基于向量的导航有必要的度量。此外,类网格表征允许智能体产生类似于哺乳动物的行为捷径。我们的研究结果表明,新兴的类网格表征为智能体提供了欧几里德空间度量并与向量运算相关联,以为精准导航提供基础。


我们的结果支持把网格单元作为基于向量的导航关键因素的神经科学理论,展示了后者可以与基于路径的策略结合起来支持在有难度环境中的导航。

理论
相关数据
人工智能技术
Artificial Intelligence

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

机构
深度神经网络技术
Deep neural network

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

深度强化学习技术
Deep reinforcement learning

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

映射技术
Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

神经元技术
neurons

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

神经科学技术
neuroscience

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

噪声技术
Noise

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

规划技术
Planning

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

强化学习技术
Reinforcement learning

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。 近年来监督式深度学习方法(以反馈算法训练CNN、LSTM等)获得了空前的成功,而基于半监督或非监督式的方法(如DBM、DBN、stacked autoencoder)虽然在深度学习兴起阶段起到了重要的启蒙作用,但仍处在研究阶段并已获得不错的进展。在未来,非监督式学习将是深度学习的重要研究方向,因为人和动物的学习大多是非监督式的,我们通过观察来发现世界的构造,而不是被提前告知所有物体的名字。 至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

推荐文章
DeepMind发表Nature论文:「预测地图」海马体催生强化学习新算法
路雪
有什么东西能让我们长生不老
PSI内容合伙人
神经网络的信徒们
PSI内容合伙人
暂无评论
暂无评论~
返回顶部