Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

许铁作者

从神经网络和强化学习的角度来看人类的决策系统

智能的问题其实可以分为感知,认知推理和决策三个个步骤,而决策是所有智能最终的目标 可惜的是目前来看关于决策的理论还极为缺乏。

如果有一个理论框架可以从神经科学的角度说清楚人类是怎么决策的,它该是什么样的?这一点就不得不提著名的系统一和系统二理论(名著think fast,think slow,Kahneman, Daniel), 认为我们的大脑有快与慢两种做决定的方式,常用的无意识的系统1依赖情感记忆和经验迅速作出判断, 类似于我们说的直觉,但系统1也很容易产生错觉。而有意识的系统2,通过调动注意力来分析和解决问题并作出决定,它比较慢,不容易出错,能够分析因果进行推理,但是调用这个系统需要极高成本, 那些理性的聪明人都是通过刻意训练达到了运用系统二的绝佳策略。

虽然这个理论通俗易懂,但是它缺乏对决策过程更加机理性的描述(mechanics),因而也很难被人工智能所利用。有没有从神经科学角度阐述这个过程的作品?底下一篇论文算是一个绝佳的阐述:

Neural Mechanisms of Human Decision-Making

Seth Herd 1 , Kai Krueger 1,2 , Ananta Nair 1 , Jessica Mollick 1,3 , and Randall O’Reilly 1,4

文章的宗旨是把著名的系统一和系统二的思想放到神经网络和强化学习的角度来看。从这个角度看,系统一是能够快速响应的本能决策系统,对应强化学习的无模型学习, 而系统二是能够精细的计算,计划和想象的决策系统, 对应有模型的强化学习。而模型来源于预测, 预测世界的未来变化以及动作本身的回馈,这个系统具有更高的精度和泛化能力,然而速度更缓慢, 不难看出它对应我们日常生活的理性决策。而最终,还需要一个脑模块需要对最终无论是来自系统一还是系统二的行为结构进行评估, 查看它是否达到预期, 这部分模型可以称为Critor(批评者,领导)。文中把这个系统定义为proposer-predictor-actor-critic模型, 有背景的同学请自觉脑补强化学习的著名理论Actor-Critic。

与以往理论不同的是,文章很好的指出了不同模块所对应的脑网络组件和它们之间的配合。比如指出了基底核的基本角色对应actor-critic的批判者, 能够保留或者拒绝由皮层提出的计划。这些模型体现了强化学习算法是如何指点人类认识自身决策系统的。

我们来看这个模型具体说了什么:一些传统的理论任务无模型和有模型学习背后的脑回路是完全分开的(傻白甜和老成世故的智者是分开的), 然而proposer-predictor-actor-critic模型任务它们共用一系列相同的脑模块的统一过程, 两者都是由Proposer推荐Plan, 然后由Actor根据预测者Predictor提供的情报决定接受还是不接受, 如果不接受, Proposer还会提供下一个Plan, 直到被接受行为做出。最终被批评者Critic评估。这样看无模型的决策到有模型的决策是一个连续光谱,只不过根据中间过程的计算深度不同,以及是否涉及预测这个步骤, 来区分出系统一的简单决策和系统二的复杂决策,那些比较复杂的决策,通常涉及预测这个关键步骤。

具体我们来看Proposer, Predictor, Actor, Critic是如何配合的;

Proposer: 建议者的角色是提出好的计划, 这背后是形成该计划的表示, 这与深度学习的核心 -表示学习密切相关。在过去大量数据中形成的对不同情景的表示, 事实上也包含了可能的解决方法。不同的表示构成一个模块化的系统, Proposer就是这种模块化的系统。根据当下最新的输入,Proposer会很快选择一个适合的模块作为计划的表示, 然后传递给Actor。

Predictor: Predictor 的作用是预测某个计划最终的产出, 显然这需要知道不同行为导致的结果, 也就是知道不同行为得到的世界的反应。这个过程事实上备选的,也就是说在一个决策可以包含它也可以不包含。当然包含预测的决策过程会准确很多,也具有更强的泛化能力,同时意味着需要消耗更多的能量。

Actor:和我们日常所想的Actor就是执行一个行为不同。模型中的Actor事实上所做的动作只有两个, go和no-go,go就是采纳Proposer的计划, 而no-go就是拒接。它的采纳和拒绝是根据Preditor的预测和以往的历史数据,可谓体现基于模型与否。如果计划被拒绝, Proposer会提出一个新的计划被选择,直到被接纳。可以看到在这个过程里计算逐步深化。一开始由于直觉和冲动做出的建议可能会被更理性的计划所取代。估计这也是为什么我们说的等一等再决策的理论依据。因为人的决策过程是一个串行过程, 一开始上来的东西往往比较本能, 而拒绝本能需要时间。

Critic:Critic的作用是最后评估被采纳的计划的结果,把最后的output和预期进行对比,找到这个区别提供一个误差信号。这个信号被多巴胺接受, 成为我们多巴胺学习的基础, 显然这一步是为了改善以后的行为使用的,误差信号对训练前几个系统作用巨大 。

这里的计划建议体现了我们的决策背后无论如何都需要一定的表示, 假设或模型,但是它们可能有的简单,有的复杂, 这就把认知和决策巧妙的结合在一起。而为什么用到“计划”而不是“行为” 我认为包含了层级强化学习的思想。一个计划包含了一组不同的行为, 可以看成是打包了的行为,如此对于学习层级化的动作意义重大。

文章的最后一部分聚焦在神经科学有哪些证据支持如上理论,实验者利用了猴子在执行决策任务时候记录的神经元活动数据得到证据。

此处的关键是实验的设计:作用遵循如下的实验框架。

一个任务必须包含一些列的states(situation)和最终目标,然后不同的plan会得到不同的结果, 这个结果客户以目标进行比对。

事实上对于这类理论,最难的步骤也就是任务设计。因为一方面它要和神经科学实验对应,就不能找太难的任务,而一旦任务太简单了,就显得非常无聊,更是人工智能研究者不care的。因此, 对于智能决策的任务的关键,在于找到一系列中间难度的任务,体现复杂决策中模型的价值,又方便实验者分析。对于决策任务的设计,感兴趣的可以阅读:

Tasks for aligning human and machine planning

Ma, Wei-Ji, and Bas van Opheusden. "Tasks for aligning human and machine planning." (2019).

对于proposer-predictor-actor-critic模型具体如何和大脑对应的问题, 文章也给出了一个初步答案, 具体见下图, 代表人类系统智慧的关键Proposer-predictor由皮层提供, 而奖励回路的核心基底核(basal ganglia)则相当于Actor, 和多巴胺分泌相关的系统则充当Critic提供误差信号。具体内容见论文。

混沌巡洋舰
混沌巡洋舰

深度学习与计算神经学跨界科普

理论神经网络强化学习
暂无评论
暂无评论~