马尔可夫决策过程

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具,广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时,我们一般特指其在离散时间中的随机控制过程:即对于每个时间节点,当该过程处于某状态(s)时,决策者可采取在该状态下被允许的任意决策(a),此后下一步系统状态将随机产生,同时回馈给决策者相应的期望值,该状态转移具有马尔可夫性质。

简介

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具,广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时,我们一般特指其在离散时间中的随机控制过程:即对于每个时间节点,当该过程处于某状态(s)时,决策者可采取在该状态下被允许的任意决策(a),此后下一步系统状态将随机产生,同时回馈给决策者相应的期望值,该状态转移具有马尔可夫性质。

(描述来源:https://en.wikipedia.org/wiki/Markov_decision_process#Continuous_time_Markov_decision_process

定义:

马尔可夫决策过程是一个五元组:

其中:

  • S表示状态的有限集
  • A表示决策的有限集

  • 表示状态转换概率矩阵

  • 表示期望方程

  • 表示折扣系数,是介于[0,1]区间的任意实数

基本性质:

  • 状态转换概率矩阵P满足马尔可夫性质,即

  • 期望方程R满足:

最优策略:

马尔可夫决策过程的核心问题是寻找最优策略组合,即在一系列决策的组合下,决策者将得到最大期望值。

首先定义在给定状态s(时间t)下决策者采取决策a的概率分布为:

因为马尔可夫决策过程的本质是一条马尔可夫链,因此我们已知该分布取决于当下的状态,即该分布是静止的(或满足时间独立性):

在此基础上,最优策略问题可以定义为:寻找一项策略组合π,使得无穷时间范围内的期望折扣总和最大化:

价值方程:

马尔可夫决策过程中的状态价值方程V是指,决策者从状态s开始按照决策组合π作出决策从而得到的预期回报:

马尔可夫决策过程中的行动价值方程Q是指,决策者从状态s开始并作出决策a,之后按照决策组合π作出决策从而得到的预期回报:

两种价值方程的关系如下图所示:

并满足以下关系式:

算法:

马尔可夫决策过程问题可以通过线性规划求解,即假设已知状态转换方程P以及期望方程R,求最优策略组合π,使得期望折扣总和最大化。

(描述来源: Reinforcement Learning: An Introduction, by R. Sutton and A. G. Barto; Algorithms for Reinforcement Learning, by C. Szepesvari)

发展历史

马尔可夫决策过程这一概念最早于20世纪50年代由美国数学家理查德·贝尔曼提出,并于20世纪60年代由罗纳德·霍华德发表的著作《动态规划与卡尔科夫过程》中建立起成熟的数学架构模型,自此该理论广泛应用于经济学、电子通讯、工程学、社会生态学等领域;20世纪60年代至80年代,该理论随着理论上的突破及算法上的实现,在各个领域实现了蓬勃发展;自20世纪90年代以来,马尔可夫决策过程多用于人工智能领域的研究,英国剑桥学者沃特金斯在其博士毕业论文里依靠马尔可夫决策过程提出的Q学习,为日后强化学习(Reinforcement Learning)的建立提供了理论依据。

主要事件

年份

事件

相关论文/Reference

1957

贝尔曼首次提出马尔可夫决策过程理论

Richard Bellman, A Markovian Decision Process, Indiana Univ. Math. J. 6 No. 4 (1957), 679–684

1960

霍华德在他的著作中对马尔可夫决策过程数学架构的完善做出了重要贡献

Howard, Ronald A. (1960). Dynamic Programming and Markov Processes. The M.I.T. Press.

1976

范努能于1976年提出连续近似法,用于解决折扣马尔可夫决策问题

van Nunen, J.A. E. E (1976). "A set of successive approximation methods for discounted Markovian decision problems. Z". Operations Research. 20: 203–208. doi:10.1007/bf01920264

1989

沃特金斯提出Q学习

Watkins, C.J.C.H., (1989), Learning from Delayed Rewards. Ph.D. thesis, Cambridge University.

发展分析

瓶颈

求解最优策略组合的过程实际上是一个求解以状态s为参数的多项式的过程,而在模拟马尔可夫决策过程时状态s的数量将会以指数级增长,而目前可操作的计算量大概在千万级左右。

未来发展方向

马尔可夫决策过程作为强化学习的基本架构,随着强化学习在AI领域的发展,相信日后定会有所突破。

Contributor: Han Zhang

相关人物
Nahum Shimkin
Nahum Shimkin
Nahum Shimkin是以色列理工学院电气工程教授,研究兴趣包括:随机控制,马尔可夫决策过程;强化学习,在线学习,Bandit过程;排队系统:博弈论分析与控制;轨迹优化与任务规划。
Ronald.A.Howard
Ronald.A.Howard
理查德·贝尔曼
理查德·贝尔曼
简介
相关人物