Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

分布式强化学习是智能体在围棋、星际争霸等游戏中用到的技术,但 DeepMind 的一项研究表明,这种学习方式也为大脑中的奖励机制提供了一种新的解释,即大脑也应用了这种算法。这一发现验证了分布式强化学习的潜力,同时也使得 DeepMind 的研究人员越发坚信,「现在的 AI 研究正走在正确的道路上」。


多巴胺是人们所熟悉的大脑快乐信号。如果事情的进展好于预期,大脑释放的多巴胺也会增多。

在人脑中存在奖励路径,这些路径控制我们对愉悦事件的反应,并通过释放多巴胺的神经元进行介导。例如,在著名的巴布洛夫的狗实验中,当狗听到铃声便开始分泌口水时,这一反应并非已经获得了奖励,而是大脑中的多巴胺细胞对即将到来的奖励产生的一种预测。

之前的研究认为,这些多巴胺神经元对奖励的预测应当是相同的。


但近日,DeepMind 的研究人员通过使用分布式强化学习算法发现,每个多巴胺神经元对奖励的预测很不相同,它们会被调节到不同水平的「悲观」和「乐观」状态。研究者希望通过这套算法研究并解释多巴胺细胞对大脑的行为、情绪等方面的影响。这份研究成果昨日登上了《Nature》


Nature 论文链接:https://www.nature.com/articles/s41586-019-1924-6

强化学习算法和多巴胺奖惩机制研究

强化学习算是神经科学与 AI 相连接的最早也是最有影响力的研究之一。上世纪 80 年代末期,计算机科学研究者试图开发一种算法,这种算法仅依靠奖惩反馈作为训练信号,就可以单独学会如何执行复杂的行为。这些奖励会加强使其受益的任何行为。

解决奖励预测问题的重要突破是时序差分算法(TD),TD 不会去计算未来的总体回报,它尝试预测当前奖励和未来时刻预期奖励之和。当下一个时刻来临时,将新的预测结果与预期中的相比,如果有出入,算法会计算二者之间的差异,并用此「时序差分」将旧版本的预测调整为新的预测。

不断训练之后,「预期」和「现实」会逐渐变得更加匹配,整个预测链条也会变得越来越准确。

与此同时,很多神经科学研究者们,专注于多巴胺神经元的行为研究。当面对即将到来的奖励时,多巴胺神经元会将「预测」和「推断」的值发送给许多大脑区域。

这些神经元的「发送」行为与奖励的大小有一定关系,但这些反应常常依靠的是外部感性信息输入,并且在给定任务中的表现也会随着生物体经验的丰富而改变。例如,对于特定的刺激产生的奖励预测变少了,因为大脑已经习惯了。

一些研究者注意到,某些多巴胺神经元的反应揭示了奖励预测的漏洞:相比于被训练应该生成的那种「预期」,它们实际发送的预期总是或多或少,和训练的预期不太一样。

于是这些研究者建议大脑使用 TD 算法去计算奖励预测的误差,通过多巴胺信号发送给大脑各个部位,以此来驱动学习行为。从那时起,多巴胺的奖励预测理论逐渐在数以万计的实验中得到证实,并已经成为神经科学领域最成功的定量理论之一。

自 TD 被应用于多巴胺奖惩机制研究以来,计算机科学家在不断优化从奖惩机制中学习的算法。自从 2013 年以来,深度强化学习开始受到关注:在强化学习中使用深度神经网络来学习更强的表示,使强化学习算法解决了精巧性和实用度等问题。

分布式强化学习是一种能让神经网络更好地进行强化学习的算法之一。在许多的情况下,尤其是很多现实情况中,未来奖励的结果实际上是依据某个特定的行为而不是一个完全已知的量进行的预测,它具有一定的随机性。

图 1 是一个示例,一个由计算机控制的小人正在越过障碍物,无法得知它是会掉落还是跨越到另一端。所以在这里,预测奖励就有两种,一种代表坠落的可能性,一种代表成功抵达另一边的可能性。


图 1:当未来不确定时,可以用概率分布的方式去描述未来奖励。未来的某一部分可能会是「好的(绿色)」,其他则代表「不好(红色)」。借助各种 TD 算法,分布式强化学习可以学习关于这个奖励预期的分布情况。

在这种情况下,标准 TD 算法学习预测将来的平均奖励,而不能获得潜在回报的双峰分布(two-peaked distribution)。但是分布式强化学习算法则能够学习预测将来的全部奖励。上图 1 描述了由分布式智能体学习到的奖励预测。

因此,分布式强化学习算法在多巴胺研究中的应用就进入了研究者们的视野。

分布式 TD:性能更好的强化学习算法

新的研究采用了一种分布式强化学习算法,与标准 TD 非常类似,被称为分布式 TD。标准 TD 学习单个预测(平均期望预测),而分布式 TD 学习一系列不同的预测。而分布式 TD 学习预测的方法与标准 TD 相同,即计算能够描述连续预测之间差异的奖励预测误差,但是每个预测器对于每个奖励预测误差都采用不同的转换。

例如,当奖励预测误差为正时(如下图 2A 所示),一些预测器会有选择性地「扩增」或「增持」奖励预测误差。这使得预测器学习更乐观的奖励预测,从而对应奖励分布中的更高部分。但同时,另一些预测器扩增它们的负奖励预测误差(如下图 2A 所示),所以学习更悲观的奖励预测。因此具有不同悲观和乐观权重的一系列预测器构成了下图 2B 和 2C 的完整奖励分布图。

图 2:分布式 TD 学习对奖励分布不同部分的价值估计。

除了简洁性之外,分布式强化学习还有另一项优势,当它与深度神经网络结合时会非常强大。过去五年,基于原始深度强化学习 DQN 智能体的算法有了很多进展,并且这些算法经常在 Atari 2600 游戏中的 Atari-57 基准测试集上进行评估,证明了分布式强化学习算法的性能优势。

多巴胺研究中的分布式 TD

由于分布式 TD 在人工神经网络中具有很好的性能,因此本研究考虑采用分布式 TD,尝试研究大脑的奖惩机制。

在研究中,研究者联合哈佛大学,对老鼠多巴胺细胞的记录进行分析。在任务中,这些老鼠获得数量未知的奖励(如下图 4 所示)。研究者的目的是评估多巴胺神经元的活动是否与标准 TD 或分布式 TD 更为一致。

以往的研究表明,多巴胺细胞改变它们的发放率(firing rate)来表明存在的预测误差,即一个动物是否接收了比预期更多或更少的奖励。我们知道,当奖励被接收时,预测误差应为零,也就是奖励大小应与多巴胺细胞预测的一样,因此对应的发放率也不应当改变。

对于每个多巴胺细胞,如果研究者确定了其基准发放率没有改变,则其奖励大小也可以被确定。这个关系被称之为细胞的「逆转点」。研究者想要弄清楚不同细胞之间的逆转点是否也存在差异。

如下图 4C 所示,细胞之间存在着明显差异,一些细胞会预测非常大的奖励,而另一些只预测出非常小的奖励。相较于从记录中固有随机变化率所能预期的差异,细胞之间的实际差异要大得多。

图 4:在这项任务中,老鼠获得的水奖励(water reward)通过随机方法确定,并可以调整,范围是 0.1-20 UL。

在分布式 TD 中,奖励预测中的这些差异是由正或负奖励预测误差的选择性扩增引起的。扩增正奖励预测可以获得更乐观的奖励预测,而扩增负奖励可以获得更悲观的预测。所以,研究者接下来测量了不同多巴胺细胞对正或负期望的扩增程度,并发现了细胞之间存在着噪声也不能解释的可靠多样性。并且关键的一点是,他们发现扩增正奖励预测误差的同一些细胞也表现出了更高的逆转点(上图 4C 右下图),也就是说,这些细胞期望获得更高的奖励。

最后,分布式 TD 理论预测,有着不同的逆转点(reversal point)的细胞应该共同编码学到的奖励分配。因此研究人员希望能够探究:是否可以从多巴胺细胞的发放率解码出奖励分配到不同细胞的分布。

如图 5 所示,研究人员发现,只使用多巴胺细胞的放电速率,确实有可能重建奖励的分布(蓝色线条),这与老鼠执行任务时奖励的实际分布(灰色区域)非常接近。

图 5:多巴胺细胞群编码了学到的奖励分布的形状。

总结

研究人员发现,大脑中的多巴胺神经元被调节到不同水平的「悲观」和「乐观」。如果它们是一个合唱团,那么所有的神经元不会唱同一个音域,而是彼此配合——每个神经元都有自己的音域,如男高音或女低音。在人工强化学习系统中,这种多样化的调整创造了更加丰富的训练信号,极大地加快了神经网络的学习。研究人员推测,大脑可能出于同样的原因使用这套机制。

大脑中分布式强化学习的存在可以为 AI 和神经科学的发展提供非常有趣的启示。首先,这一发现验证了分布式强化学习的潜力——大脑已经用到了这套算法

其次,它为神经科学提出了新的问题。如果大脑选择性地「倾听」乐观/悲观多巴胺神经元会怎么样呢?会导致冲动或抑郁吗?大脑有强大的表征能力,这些表征是如何由分布式学习训练出的呢?例如,一旦某个动物学会了分配奖励的机制,在它的下游任务会如何使用这种表征?多巴胺细胞之间的乐观情绪可变性与大脑中其他已知的可变形式存在什么关联?这些问题都需要后续研究进一步解释。

最后,DeepMind 的研究人员希望通过这些问题的提出和解答来促进神经科学的发展,进而为人工智能研究带来益处,形成一个良性循环。

参考链接:https://deepmind.com/blog/article/Dopamine-and-temporal-difference-learning-A-fruitful-relationship-between-neuroscience-and-AI
https://www.newscientist.com/article/2230327-deepmind-found-an-ai-learning-technique-also-works-in-human-brains/
理论DeepMind神经科学强化学习
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

推荐文章
暂无评论
暂无评论~