策略搜索

策略搜索是强化学习中的一个子领域,其重点是为给定的策略找到合适的表示参数。它非常适合机器人学,因为它可以处理高维状态和动作空间这类机器人学习中的主要挑战。

简介

策略搜索是强化学习的一个子领域,重点是为给定的策略参数化寻找好的参数。因为它可以处理高维的状态和动作空间而非常适合机器人技术,这个领域正是机器人学习的主要挑战之一。

策略搜索分为基于模型的搜索和无模型的搜索策略。其中无模型的策略搜索方法直接基于采样的轨迹学习策略,基于模型的使用了采样的轨迹来首先构建一个状态动态模型,然后使用这个模型进行策略改进。

如图所示,在基于模型的情况(右子树)中,数据被用来学习对应的的模型(蓝色盒子)。然后这个模型被用来生成轨迹。在这里,我们区分随机轨迹和确定性轨迹。无模型策略搜索(左子树)直接使用数据作为更新策略的轨迹。在无模型和基于模型的策略搜索(绿色块)中,策略更新都基于策略梯度(PG)、期望、最大化(EM)更新或信息理论洞察(Inf.Th)。[描述来源:Deisenroth M P, Neumann G, Peters J. A Survey on Policy Search for Robotics[M]. Now Publishers Inc. 2013.]

发展历史

策略搜索早在1987年就被提出了,近期,学者将这个算法应用到机器人的相关搜索中,获得了很大的成功。

主要事件

A

B

C

1

年份

事件

相关论文/Reference

2

1987-1992

在强化学习算法中引入了策略搜索的概念

R. J. Williams. A class of gradient-estimating algorithms for reinforcement learning in neural networks. In Proceedings of the IEEE First International Conference on Neural Networks, San Diego, California, 1987.; R. J. Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3):229–256, 1992.

3

2000

针对马尔科夫决策和部分可观察的马尔科夫决策针对性地提出了一种新的搜索策略

Jordan M I, Ng A Y. PEGASUS: A Policy Search Method for Large MDPs and POMDPs[J]. Eprint Arxiv, 2000:406-415.

4

2011

将策略搜索应用到机器人的运动搜索中

Kober J, Peters J R. Policy search for motor primitives in robotics[C]//Advances in neural information processing systems. 2009: 849-856.;Levine S, Abbeel P. Learning neural network policies with guided policy search under unknown dynamics[C]//Advances in Neural Information Processing Systems. 2014: 1071-1079.

相关人物
迈克尔·乔丹
迈克尔·乔丹
著名计算机科学家和统计学学者,主要研究机器学习和人工智能。目前担任加州大学伯克利分校电气工程与计算机科学系和统计学系教授。他的重要贡献包括指出了机器学习与统计学之间的联系,并推动机器学习界广泛认识到贝叶斯网络的重要性。他还以近似推断变分方法的形式化、最大期望算法在机器学习的普及方面的工作而知名。
Ronald J. Williams
Ronald J. Williams
贾恩·皮特斯
贾恩·皮特斯
Jan Peters(贾恩·皮特斯)是达姆施塔特工业大学计算机科学系智能自主系统的全职教授(W3),同时也是Max-Planck智能系统研究所的兼职高级研究科学家,负责跨部门机器人学习经验推理和自主运动部门之间的小组。 Jan Peters得过Dick Volz最佳美国博士论文亚军奖,IEEE机器人与自动化学会早期职业奖,以及国际神经网络协会的青年研究员奖等。
卡尔·爱德华·拉斯穆森
卡尔·爱德华·拉斯穆森
图书: 机器学习的高斯过程, Evaluation of Gaussian Processes and Other Methods for Non-linear Regression [microform]
简介
相关人物