战威,UC Berkeley博士在读作者自动驾驶中的预测、决策与规划研究方向

自动驾驶中行为预测的一些根本问题和最新方法

自动驾驶行业已持续了多年的火热,但与之形成鲜明对比的是,业内对于实现相对复杂场景下的全自动驾驶的预期时间节点却一再延后,甚至略显悲观。其中一个很重要的原因,就是对于高度动态和交互性的场景下的行为和轨迹预测问题始终没有得到很好的解决,失去这一前提,再完美的决策、规划、控制在实际应用中都不可能是安全和高效的。

实际上,从业者很早就指出行为预测是实现全自动驾驶最具挑战性的问题之一,比如曾经领导Google无人车项目多年的Chris Urmson,在三年前的演讲中说到Google无人车项目的最大障碍就是怎样理解并预测周围道路参与者的行为(https://youtu.be/O2bXF7XJ5P0?t=2343)。笔者也经常从一些学界大佬口中听到类似的论断。

在一些相对成熟的自动驾驶细分领域,到底该解决什么具体问题,以及怎样评价方法的优劣都相对清晰,研究者可以更多地关注算法和框架的改进和创新,但预测领域却并非如此。除了在预测方法上研究者们仍在深入探索,其他问题诸如解决什么样的问题是有实际价值的,该怎样去简化对于运动的表达以便于获取其概率分布,什么表达适合作为真值,怎样去评价方法的性能,都是悬而未决却经常被忽略的问题。忽略这些根本性的问题可能导致缘木求鱼,浪费大量的研究努力。

本文将通过简要介绍笔者所在研究团队2018年在智能车、智能交通和机器人领域顶会所发表的一些预测与行为建模领域相关论文的内容,来阐述预测领域面临的问题以及研究团队的一些初步探索,力求简洁通俗,希望能对读者有所启发。本文的结构大体遵循了文章[1]的各个章节,讨论了预测领域想解决什么问题,怎样表达并简化运动,用什么方法解决问题和怎样评价预测结果,以之为视角拆解了文章[2-8]中的部分内容,并进行简要总结,详情请参考对应的论文。

如果有读者有兴趣在智能车领域顶会上与学者们深入探讨这一领域的问题和解决方案,或者有兴趣参与到我们研究团队的相关工作中,请关注文末的IEEE IV 2019 Workshop投稿和UC Berkeley MSC Lab研究团队的招生信息。

解决什么问题

交通场景中,各个实体(车辆、自行车、行人等)的行为充满了不确定性,所以对于这些行为的预测也应是概率的而非确定性的。本文随后提到的预测问题所指皆为概率预测问题,也就是说我们想得到实体未来行为的概率分布。文章[1]中指出了影响到预测领域problem formulation的四个重要的区分点,分别是视角,交互性,实体数量和运动表达。文章[2]中进一步给出了最具交互性的回应预测(reaction prediction)和多实体预测之间的条件概率的转换关系,进而将两种在高度动态和复杂交互场景中最具实用性的预测问题进行了统一,使其评估成为可能。

视角可将预测问题区分为全局鸟瞰,本车局部和遮挡盲区的预测。目前在车辆预测领域最常用的数据集NGSIM dataset就属于全局鸟瞰视角下的预测,但基于这一数据集的研究也会不可避免的忽略掉本车传感器遮挡所产生的影响。如图1所示,由于观测信息的缺失,本车(灰色)对可能出现在盲区的车辆(绿色)进行可靠的预测与跟踪非常困难,但是我们经常可以获得对于盲区车辆行为产生影响的其他车辆运动的可靠观测(如绿车的前车等),这些信息会帮助我们提升对于盲区车辆的跟踪和预测性能,文章[3]尝试利用从数据中学到的跟车和变道行为模型,基于盲区车辆周边车辆的运动,来提供对于盲区车辆运动更准确的推断,显著提升预测与跟踪性能。

图1. 被遮挡车辆的跟踪与预测 [3]

交互性可以说是预测领域最为重要的一个区分点,可将预测问题分为独立(independent)、依赖(interdependent)和回应(reactive)预测。独立预测只基于被预测实体的历史运动给出未来可能的行为,由于问题不具有挑战性和实用性,目前较少为人关注。依赖预测基于预测实体及其周围实体的历史运动给出未来可能的行为,也是最近几年绝大多数研究者关注和研究的问题。然而当我们探讨高度动态和复杂交互场景中的预测问题时,依赖预测是显然无法满足要求的。图2中是从NGSIM dataset里面抽取的一个高速公路上匝道的场景,红车与蓝车进行了将近30秒的路权争夺,整个过程中如将红车视为本车,单纯基于红蓝黑三辆车的历史运动去预测蓝车的未来行为是没有意义的,因为在每个时间点来看,蓝车未来的行为都会受到其认定的红车的未来行为的影响,相应的,红车更关心的也是一个“what if”的问题:如果我加速抢路权,蓝车让我还是撞到我的概率分别会有多大。这就是为什么在复杂交互场景中,我们真正需要的是回应预测,就是基于预测实体及其周围实体的历史运动,以及本车的未来运动来给出被预测实体未来可能的回应行为。文章[4]正是针对回应预测问题给出了一种层级式逆强化学习的解决方案。

图2. NGSIM dataset中典型的复杂交互场景 [2]

实体数量可将预测问题区分为单实体和多实体预测。目前多数研究者关注的是单实体预测问题,即预测结果只对应于一个被预测对象,然而在复杂交互场景中,我们常常关心多个实体未来行为的联合概率分布。而且特定类型的预测方法(如基于神经网络的算法)很难解决交互场景下的回应预测问题,反倒很适合解决多实体预测问题,这样我们就可以借助多实体预测问题和回应预测问题之间的联系,将回应预测问题转变为包含着本车的多实体预测问题加以解决。文章[5]和[6]就是将本车纳入多实体预测问题,进而获得交互场景下本车与被预测车辆未来行为的联合概率分布,用以刻画其交互行为。

运动表达及其简化方式对于预测算法的输入输出的形式都有着根本的影响,由于内容较为复杂,我们在下一个单独的章节中予以阐述。

怎样表达运动并简化

我们一般用带有空间和时间信息的轨迹来描述实体的运动,一段时间内实体的运动轨迹被定义在极其高维的空间上,因而在复杂交互场景中,想要描述各个实体的轨迹的概率分布是很困难的,所以研究者经常试图将运动的表示进行简化,以便获取其概率分布

连续运动可包含实体的位置,速度,加速度和方向等信息,尽管描述实体一段时间的轨迹的概率分布极为困难,仍然有两种方式能帮我们实现这一描述。第一种方式是时间轴上的简化,即每次只考虑一个时间步的连续运动的概率分布,例如在文章[3]和[5-7]中通过一个一个时间步的演进来获取整个轨迹的概率分布,即便如此,我们仍然希望尽量降低单个时间步的状态空间维数。另一种方式是通过一些强假设给出一串轨迹及其概率分布之间的对应关系,如[4]中的带噪理性人(noisily rational)假设,就可以通过代价函数的学习帮助我们获取一整段时间轨迹的概率分布

运动模式(motion pattern)是研究者为了简化运动的描述而定义的一些离散量,大体上可分为路线(route)、路权(pass-yield)和细微(subtle)模式这三个层级。实体的预定路线一般不受周围实体和环境的影响,定义也比较清晰,路线预测问题一般也可以转化为分类问题来解决和评价。路权模式体现出有路权冲突的实体间的先后关系,结果很大程度上受到动态交互过程的影响。细微模式一般定义不明确,但有助于分析交互过程。在很多高度动态的场景中,实际问题可能更为复杂,我们经常要同时预测不同层级的运动模式以及连续运动,而且我们关心的经常是一些带有语义信息的离散或连续的量,比如被预测车辆到底要塞进哪个空(如图3所示),变道还有多少时间完成,以及变道完成的时候该车辆在当前空的位置等等,文章[5]中便给出了一个解决对于带有语义信息的量进行概率预测的统一框架和方法。


图3. 带有语义信息的预测 [5]

运动模式和意图的区别是一个经常被研究者忽略的问题,但这个问题在定义预测问题的真值和数据标签的形式的时候是极其重要的。我们可以回看一下前面那个从NGSIM dataset抽取的两辆车争抢上匝道路权的那个过程,如果我们只从路权模式和红车的所谓“意图”方面来考虑,很容易就会给整个交互过程打上一个“红车先走”的标签和真值,但这明显是不能准确反映整个交互过程的。在整个交互过程的大部分时间里,两个司机头脑中的“意图”很可能都是“我想先走”,所以有20秒左右的时间两车都是寸步不让,给这20秒的时间打上“红车先走”的标签是明显不符合事实的,而且事实上我们永远都不知道这两个司机头脑中每时每刻的真实“意图”,这个信息是不能拿来当做真值的。所以在这样的复杂交互场景中,只有运动轨迹或者基于运动轨迹得到的细微运动模式才能被拿来当成每一时刻的真值。

离散化时空运动表达包括典型轨迹(prototype trajectory)、可达集(reachable set)和栅格(occupancy grid)等,可以将连续运动进行离散化表达,继而方便概率分布的获取。其中典型轨迹和可达集能够帮助我们获取特定运动模式的离散时空表达,文章[2]中对于定义好的运动模式,采用了典型轨迹来表示时空运动,并通过归一化获取典型轨迹在各种方法得到的概率分布中的概率。

用什么方法解决问题

前面两个章节主要是为了加深我们对问题本身的理解,下面要讲到我们可以用什么方法来解决这些问题。预测领域的算法和模型大体上可以分为三类,即神经网络模型、概率图模型和基于规划的预测模型。帮助我们解决问题的知识和信息主要有两个来源,一个是人类对于驾驶行为、地图信息、交通规则、车辆动力学等先验知识,一个是采集到的真实交通场景中的运动数据。大体上来说,以上三类模型的设计对于先验知识的需求依次上升,而对于数据的要求则依次降低。下面将就研究团的近期文章中提出和运用的方法分类加以介绍。

神经网络模型是一种端到端的,多数情况下是黑箱的模型,即研究者在设计网络结构的时候,更多考虑的是模型本身的特性,而非先验知识。很多研究者在预测问题上应用神经网络的时候都是将其作为一种确定性的模型,近年来一些研究开始将概率模型纳入其中。如图4所示,文章[5]采用的做法就是将参数概率分布中的参数作为全连接网络的输出,进而获取其概率分布,提出了一种对于带有语义信息的离散和连续值进行概率预测的统一框架和方法(可参考“基于语义意图的车辆行为预测”)。在文章[5]的基础上,文章[7]又引入了条件变分自编码器(conditional variational auto-encoder),通过让隐空间(latent space)的分布趋近于高斯分布,使得我们在隐空间分布中的采样可被转化为对于输出轨迹的采样,进而获取其概率分布(如图5所示)。

图4. 全连接神经网络概率分布输出实现 [5]

图5. 条件变分自编码器概率分布输出实现 [7]

概率图模型一般被作为概率在时间上演进或者各种事件和行为因果关系推导的框架,经常会与高斯混合模型或其他机器学习或行为模型一起使用。如图6所示,文章[3]将从数据中学到的行为模型融入混合粒子滤波框架中,提出了一种可自适应跟踪目标数量,无需观测与实体轨迹之间的显式数据关联(data association)的统一的跟踪框架。文章[6]则提出了一种基于双层隐马尔科夫模型和高斯混合模型相结合的层级模型来处理对于运动模式和连续轨迹的预测(如图7所示)。

图6. 遮挡车辆跟踪的粒子滤波框架 [3]

图7. 双层的隐马尔科夫模型 [6]

基于规划的预测模型一般从数据中学习特定的规划方法(如基于最优控制/数值优化的方法)中的某些重要参数,这些参数在一般的规划算法中通常是人为设定的。最典型的基于规划的预测模型便是逆强化学习(逆最优控制),主要是从数据中学习代价函数中的关键参数,进而通过带噪的理性人假设,把一段时间轨迹的代价数值转化为其概率分布。文章[4]提出了一种层级的逆强化学习方法来解决回应预测问题中的轨迹概率分布估计,切实地回答了如果本车做出某种行为,其他实体可能会怎样回应这一难题。逆强化学习的应用也不仅限于此,文章[8]量化了“礼貌”这一驾驶行为中的社会性因素,并将其嵌入规划的代价函数中,通过逆强化学习从数据中获取对应于“礼貌”相关项的参数,使得自动驾驶车学到礼貌的行为,同样的方法也可用于对于有人车辆社会化行为的建模中(可参考“无人车,请礼貌驾驶”)。

怎样评价预测效果

最后我们要讲到的是怎样评价预测的效果。预测领域典型的评价方式一般是从数据拟合(data approximation)的准确性的角度来考虑,常用的度量(metric)有均方误差、似然率(likelihood)和KL散度。这种评价方式相对直观,操作简便,一定程度上或单纯从数据角度来说也反映了预测的效果。但是做预测的根本目的并不是拟合数据集,而是服务于后续的决策规划模块,所以在评价预测算法的时候,是有必要充分考虑不准确的预测被决策规划模块采纳后所产生的负面影响,这也是文章[2]想讨论的核心内容。

数据拟合的度量本身也存在着一些问题。均方误差不能准确反映多模态(multi-modal)分布拟合的准确性是大家公认的问题,而且对于轨迹很小的扰动在均方误差上几乎无法体现出变化,却有可能使得轨迹从无碰撞变为有碰撞,或者从符合车辆动力学变得不符合,事实上天差地别。似然率能反映真值轨迹处的概率准确程度有多好,却无法反应非真值处的预测会有多差。KL散度需要有轨迹的概率分布的真值,而这一信息在实际数据中是很难拿到的。文章[2]把概率分布的评价从轨迹空间转移到运动模式的概率空间上,使用Brier Score这一概率预测领域常用的度量来避免前述的这些问题。

考虑后果的度量(fatality-aware metric)是文章[2]提出的一种考虑了不准确的预测被决策规划模块采纳后所产生的负面后果的度量方式。基本想法就是,如果预测算法给出了明显比其他实体真值轨迹更危险更激进的轨迹,那意味着决策规划模块的输出会因此更保守以避免实际上不会发生的碰撞,所以预测结果越是比真实情况危险和激进,意味着从后果角度来说其保守性越高;类似地,如果预测算法给出了明显比其他实体真值轨迹更礼让的轨迹,那意味着决策规划模块的输出会因忽略掉本来存在的危险而更激进,没有采取本应是防御性的驾驶策略,所以预测结果越是比真实情况更礼让,意味着从后果角度来说其非防御性越高。文章[2]通过定义后果上的保守性和非防御性,以及保留真值处的拟合准确性,定义了考虑后果的度量。

文章[2]将三类主要的预测方法(神经网络、概率图、基于规划的预测)纳入到统一的评估框架中,通过实现混合密度网络(mixture density network),隐马尔科夫模型和逆强化学习(逆最优控制),并将其结果统一为回应预测的条件概率,从数据拟合度量和考虑后果的度量两个角度来评价几种典型的概率预测方法。结果表明,三种方法在真值处的总体概率依次降低,即数据拟合能力依次降低,对于这个结果我们并不意外,因为神经网络有更多的可学习参数和更强的数据表达能力,逆最优控制中的可学习参数最少,而且神经网络和隐马尔科夫模型的训练的度量就是真值处的似然率。然而如果考虑了采纳预测的后果,逆最优控制反倒有最好的表现,很可能的原因是逆最优控制规划器(planner)结构本身就带有很强的先验知识,不容易对训练数据出现过拟合,输出的概率分布虽然在真值处并没有很高,却不容易输出明显不符合实际情况的,可能导致本车极为保守或非防御的预测结果,使其在实际使用中反而可能有更好的表现。

IV 2019 Workshop征稿

有鉴于预测领域的这些根本问题和对于高性能算法的迫切需求,预测与决策的密切关系,以及预测和决策在面对社会化交互问题时面临的困难,我们在智能车领域的顶会IEEE IV 2019上组织了workshop “Prediction and Decision Making for Socially Interactive Autonomous Driving” (https://sites.google.com/berkeley.edu/iv19-interaction/),欢迎各位业内同仁踊跃投稿和参与,希望我们能共同推进这一领域的发展。

访问学生招收

各位同学如果有兴趣参与我们研究团队的相关的工作,请参考下面的访问学生的招生信息,欢迎大家报名,发送邮件至 wzhan@berkeley.edu

UC Berkeley MSC Lab 自动驾驶方向招收访问学生

参考文献

[1] W. Zhan, A. de La Fortelle, Y.-T. Chen, C.-Y. Chan, and M. Tomizuka, “Probabilistic Prediction from Planning Perspective: Problem Formulation, Representation Simplification and Evaluation Metric”, IEEE IV 2018. (https://ieeexplore.ieee.org/abstract/document/8500697)

[2] W. Zhan, L. Sun, Y. Hu, J. Li, and M. Tomizuka, “Towards a Fatality-Aware Benchmark of Probabilistic Reaction Prediction in Highly Interactive Driving Scenarios”, IEEE ITSC 2018. (https://arxiv.org/abs/1809.03478)

[3] J. Li, W. Zhan, and M. Tomizuka, “Generic Vehicle Tracking Framework Capable of Handling Occlusions Based on Modified Mixture Particle Filter”, IEEE IV 2018. (https://arxiv.org/abs/1809.10237)

[4] L. Sun, W. Zhan, and M. Tomizuka, “Probabilistic Prediction of Interactive Driving Behavior via Hierarchical Inverse Reinforcement Learning’’, IEEE ITSC 2018. (https://arxiv.org/abs/1809.02926)

[5] Y. Hu, W. Zhan, and M. Tomizuka, “A Framework for Probabilistic Generic Traffic Scene Prediction”, IEEE ITSC 2018. (https://arxiv.org/abs/1810.12506)

[6] J. Li, H. Ma, W. Zhan and M. Tomizuka, “Generic Probabilistic Interactive Situation Recognition and Prediction: From Virtual to Real”, IEEE ITSC 2018. (https://arxiv.org/abs/1809.02927)

[7] Y. Hu, W. Zhan, and M. Tomizuka, “Probabilistic Prediction of Vehicle Semantic Intention and Motion”, IEEE IV 2018 (Best Student Paper Award). (https://arxiv.org/abs/1804.03629)

[8] L. Sun, W. Zhan, M. Tomizuka, and A. Dragan, “Courteous Autonomous Cars”, IEEE/RSJ IROS 2018. (https://arxiv.org/abs/1808.02633)

致谢

感谢孙立婷、李家琛、胡冶萍的学术贡献和对文章的核对修改。

ControlPlusAI
ControlPlusAI

分享机器人控制和AI领域里的一些知识和感想,偏学术。由来自UC Berkeley, Stanford, CMU的研究者们原创撰稿。

理论概率图模型概率分布神经网络自动驾驶
5
相关数据
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

粒子滤波技术

粒子滤波器(particle filter)是一种使用蒙地卡罗方法(Monte Carlo method)的递回滤波器,透过一组具有权重的随机样本(称为粒子)来表示随机事件的后验机率,从含有噪声或不完整的观测序列,估计出动态系统的状态,粒子滤波器可以运用在任何状态空间的模型上。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

高斯混合模型技术

高斯混合模型(Gaussian Mixture Model,GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

最优控制技术

最优控制是指在给定的约束条件下,寻求一个控制,使给定的系统性能指标达到极大值(或极小值)。它反映了系统有序结构向更高水平发展的必然要求。它属于最优化的范畴,与最优化有着共同的性质和理论基础。对于给定初始状态的系统,如果控制因素是时间的函数,没有系统状态反馈,称为开环最优控制,如果控制信号为系统状态及系统参数或其环境的函数,称为自适应控制。

概率图模型技术

在概率论和统计学中,概率图模型(probabilistic graphical model,PGM) ,简称图模型(graphical model,GM),是指一种用图结构来描述多元随机 变量之间条件独立关系的概率模型

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

暂无评论
暂无评论~