强化学习三大方法,改善AI的游戏表现

编者按:近年来,强化学习为游戏开发带来了新的机遇,Paidia 项目便是最近的成果之一。该项目由微软剑桥研究院与游戏开发商 Ninja Theory 合作开发,不仅推进了强化学习的前沿技术,创造了全新的游戏体验,还开发了能够真正与人类玩家展开团队合作的游戏智能体。本文将详细介绍 Paidia 项目的三项最新研究成果,以及它们将如何引领现代视频游戏的开发,和其他现实应用领域中的AI创新。本文编译自微软研究院博客文章“Three new reinforcement learning methods aim to improve AI in gaming and beyond”。

强化学习(Reinforcement Learning,简称 RL)近些年的发展为游戏开发带来了令人兴奋的新机遇,与传统技术相比,强化学习可以提供指向高等级目标的奖励信号,并让游戏角色为游戏互动中自然出现的数据驱动行为,制定出获得高额奖励的最优策略,从而有助于设计出更加生动的游戏角色。 

由微软剑桥研究院游戏智能组与游戏开发商 Ninja Theory 合作开发的 Paidia 项目(点击阅读原文,了解更多项目信息),致力于推进强化学习的前沿技术,以创造全新的游戏体验。特别值得一提的是,该项目专注于开发能够真正与人类玩家展开团队合作的游戏智能体。

Paidia 项目研究面临的关键挑战在于,对于游戏开发者而言,如何让强化学习变得高效且可靠(例如,通过将其与不确定性估计和模仿学习相结合);如何构建深度学习架构,并赋予游戏智能体合适的能力(例如长期记忆);以及如何让游戏智能体快速适应新的游戏情境。下面将重点介绍一下基于这三个主要挑战,所进行的最新的研究进展。

深度学习决策系统的
不确定性估计,可以更准确

计算机视觉强化学习机器翻译深度学习无处不在,并在很多实验中取得了近乎完美的效果。只需提供一个数据集,系统就能够根据深度学习模型的“最佳推断”进行预测。未来,深度学习将会越来越多地应用于预测具有深远影响,且一旦判断失误便会付出沉重代价的场景中。

不过大多数深度学习模型所采用的“最佳推断”方法的确定性并不充分。实际上,人们需要技术不仅能提供预测结果,还要提供相关的确定性程度。微软在 ICLR 2020 上发表的论文“通过拟合先验网络进行保守的不确定性估计”(Conservative Uncertainty Estimation By Fitting Prior Networks)便对这一问题进行了探索,并提出了随机网络蒸馏(RND,Random Network Distillation)的分析方法,该方法可用于估计深度学习模型的置信度。

图1:预测函数(绿色)和先验函数(红色)在可见数据上达成共识(左),而在不可见数据上未达成共识(右)。研究员们将某一点上不确定性的估计值定义为“先验值与预测值之间的差距”。

在分析的 RND 版本中,不确定性模型和预测模型是相互独立的。其中有两种类型的神经网络:预测函数(绿色)和先验函数(红色)。先验神经网络是固定的,不会在训练期间发生改变。当发现一个新的数据点时,模型会训练预测变量对该点上的先验函数值进行适配。可以看到,在数据点附近,预测函数和先验函数是重叠的。而如果观察右侧的值,则会发现预测函数和先验函数之间存在巨大差距,与已观察到的数据点相差甚远。

论文结果表明,先验值和预测值之间的差距准确地反应了模型对其输出结果确定性的影响。实际上,在对比了所获得的不确定性估计值与不确定性量化的黄金标准——通过贝叶斯推断得出的后验值之后,可以看到两个很有吸引力的理论特性。首先,RND 返回的方差总是高于贝叶斯后验方差,这就是说,尽管 RND 返回的不确定性偏高,但它不会低估不确定性;其次,也证明了不确定性会收敛,也就是说,在用观察数据对模型进行多次训练后,不确定性最终会变小。换言之,随着数据越来越多,该模型对于自己的预测将更加确定。

顺序无关的汇总记忆,
提高游戏智能体的回忆能力

在许多游戏中,玩家对周围的世界仅有局部的可观察性。要采取行动,玩家需要回忆早前在游戏中曾经见过但不在当前视线范围内的物品、地点和其他玩家。深度强化学习智能体利用递归网络(例如 LSTM 或 GRU),或者外部存储器读取和写入能力(如差分神经计算机,简称 DNC)就可以解决上述问题。

自然语言处理中经常会使用递归网络去回忆较早的内容,因为通常情况下,单词顺序对其理解十分重要。但是,智能体与游戏环境的互动过程会影响它们对周围环境的观察顺序,而这与它们的行为方式可能并无关联。举一个与日常生活相关的例子,如果一个人在一座新建筑物中行走时看到过一个消防通道,那么无论此后他经历了什么或者做过哪些事情,在某些情况下可能都需要回忆起消防通道的确切位置。在 ICLR 2020 论文 “AMRL:用于强化学习的汇总记忆”(AMRL: Aggregated Memory For Reinforcement Learning)中,微软的研究员们建议在智能体的策略网络中使用顺序无关的汇总记忆(到目前为止所看到的值的总和或其中的最大值)来解决这个问题。

图2:模型架构。从左到右分别是 LSTM、DNC、SET 和 AMRL。AMRL 基于 SET 的汇总记忆,对 LSTM 加以扩展(例如,所观察到的平均值或最大值)。

虽然培养外部存储器的读写能力(例如 DNC)也可以学习直接回忆先前的观察结果,但实际证明,其架构的复杂性要求模型具备更多与环境交互的样本,而这有可能阻碍它们在固定的计算预算内学习高性能的策略。

实验中,研究员们在“我的世界”游戏的某一关开始时,向智能体展示了一个红色或绿色立方体,告诉它们在本关结束时必须采取某种行动。在观察到某个绿色或红色立方体之后,直至观察到下一个绿色或红色立方体之前的时间里,智能体可以在当前环境中自由移动,这样可以创建出一个长度不定且互不相关的观察值序列,从而分散智能体的注意力,并让它们忘记在开始时观察到的立方体颜色。

图3:用于测试智能体记忆能力的“我的世界”迷宫俯视图(下方),以及智能体在该环境中移动时可能看到的观察样本(上方)。

通过递归网络与顺序无关的汇总记忆的整合,AMRL 既可以从最近的观察序列中推断出状态的隐藏特征,又可以回忆起过去任何时间曾经观察到的信息。这样,智能体就能够有效地回忆起立方体的颜色,并在游戏某一关结束时做出正确的决定。借助这种新的能力,智能体可以玩更复杂的游戏,甚至可以部署在非游戏应用中,即在这些应用中智能体必须在局部可见的环境中调出很久以前的回忆。

VariBAD,
自适应探索未知游戏环境

目前,几乎所有的强化学习任务以及大多数为视频游戏应用训练的强化学习智能体,都是针对单个游戏场景进行优化的。但在交互性强的游戏中,智能体的关键特征之一是不断学习和适应新挑战的能力。微软与牛津大学的研究人员合作开发的新方法,让智能体能够探索并快速适应给定的任务或场景。

在论文 “VariBAD:一种通过元学习实现贝叶斯自适应深度强化学习的良好方法”(VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning)中,研究员们将关注点放在了“贝叶斯自适应马可夫决策过程”(Bayes-Adaptive Markov Decision Processes)的问题上。简单来说,在这种情况下,智能体将学会与各种任务进行交互,并学会如何尽快就当前所执行任务做出推断。该研究的目标是训练出可根据对当前任务的判断,做出最佳表现的智能体,也就是“贝叶斯最优智能体”。例如,设想一个智能体,它经过训练后可以抵达各个目标位置,在游戏的某一关开始时,智能体并不确定自己应该抵达的目标位置。而“贝叶斯最优智能体”会依据自己对可能目标位置的最初设定,采取最佳的步数来降低不确定性,并达到正确的目标位置。

VariBAD 方法引入了一种灵活的编解码器体系结构,对智能体的设定分布进行建模,并根据当前设定调节其策略,以学习最优行动。通过实验证明,这种方法能够产生一种强大而灵活的解决方案,在多项研究任务中均实现了贝叶斯最优行为。目前,研究人员也正在研究如何利用此类方法让游戏智能体可以迅速适应新的游戏情境。

图4:不同探索策略的图示。(a)场景:智能体从左下方开始,在灰色区域的某处存在一个目标位置,但智能体并不知道。(b)贝叶斯最优智能体策略,系统地搜索可能的网格单元以找到目标位置,以蓝实线(到目前为止的互动)和蓝虚线(未来的互动)标示,在背景中,以灰色(p = 1 /(余下可能目标位置数量,或可能包含目标位置的格子数量)和白色(p = 0))显示简化的后验值。(c)后验采样机制对可能的目标位置(红色方块)反复采样,并采用最短路径到达该位置,这是次优策略,一旦发现目标位置,每个样本都将与真实的目标位置相匹配,则表明智能体采取了最佳行动。(d)VariBAD 学习的探索策略。灰色背景表示智能体已学习到的后验近似值。

游戏智能研究,继续开拔

微软剑桥研究院的独立研究以及与 Ninja Theory 的合作探索,围绕游戏智能主题做了不少创新性的研究。其中,研究的关键方向之一就是创建能够真正学会与人类玩家展开合作的 AI 游戏智能体——无论是基于团队作战的游戏,还是在游戏之外真实世界中的应用(例如虚拟助手)。研究人员希望能够让游戏智能体更好地侦测陌生场景,并利用示例信息加速学习,创建能够根据较少数据学习记忆长效依存关系及其后果的智能体,并让智能体可以迅速适应新的情况或人类合作者。而文章上述所介绍的研究成果,正是实现这些目标的关键步骤。

其实强化学习的入门比你想象的更容易,微软 Azure 提供了包括 Azure 机器学习(https://azure.microsoft.com/zh-cn/)在内的工具和资源,其中就包括强化学习训练环境、资料库和虚拟机等。


微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

理论强化学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

贝叶斯推断技术

贝叶斯推断(英语:Bayesian inference)是推论统计的一种方法。这种方法使用贝叶斯定理,在有更多证据及信息时,更新特定假设的概率。贝叶斯推断是统计学(特别是数理统计学)中很重要的技巧之一。贝叶斯更新(Bayesian updating)在序列分析中格外的重要。贝叶斯推断应用在许多的领域中,包括科学、工程学、哲学、医学、体育运动、法律等。在决策论的哲学中,贝叶斯推断和主观概率有密切关系,常常称为贝叶斯概率。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

策略网络技术

在强化学习中,策略网络指一组相对稳定的关系,这些关系具有非等级和相互依赖的性质,将各个行为者(actor)联系起来。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~