贝尔曼方程 | 机器之心

简介

贝尔曼方程，又叫动态规划方程，是以Richard Bellman命名的，表示动态规划问题中相邻状态关系的方程。某些决策问题可以按照时间或空间分成多个阶段，每个阶段做出决策从而使整个过程取得效果最优的多阶段决策问题，可以用动态规划方法求解。某一阶段最优决策的问题，通过贝尔曼方程转化为下一阶段最优决策的子问题，从而初始状态的最优决策可以由终状态的最优决策(一般易解)问题逐步迭代求解。存在某种形式的贝尔曼方程，是动态规划方法能得到最优解的必要条件。绝大多数可以用最优控制理论解决的问题，都可以通过构造合适的贝尔曼方程来求解。

[内容来源: Bertsekas, D. P. (1976). Dynamic Programming and Stochastic Control. Academic Press, Inc.]

现实中贝尔曼方程多被用来解决马尔科夫决策过程问题，即最优决策只依赖于当前状态而和状态的历史无关。在第t阶段的状态为$x_t$,此时若做决策$a_t$,则获得奖励$F(x_t,a_t)$,且状态发生转变。$P(x_i|x_t,a_t)$表示在状态$x_t$选择决策$a_t$后状态转移为$x_i$的概率。状态$x_t$的价值函数$V(x_t)$定义为在该状态下，能获得所有奖励之和的最大值,奖励通常乘以一个折扣项$\beta$ ($0<\beta \le 1$)。

上述方程即贝尔曼方程，它将相邻状态的价值函数联系起来，求解$V(x_t)$的问题可以转化为求解$V(x_{t+1})$的问题。

[内容来源: David Silver课件http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/MDP.pdf）

一个的动态规划实例是求一个序列A[0],A[1],...,A[n]的最长非降子序列长度的问题。若A[0],A[1],...,A[i]的最长子序列的长度为d[i],则d[i]可以构造贝尔曼方程d[i] = max{1,d[j]+1} (对所有的j<i,且A[j]<=A[i])。从而d[n]可以通过贝尔曼方程逐步转化为求解d[0]的问题。

[内容来源: http://www.hawstein.com/posts/dp-novice-to-advanced.html]

高纬度的贝尔曼方程迭代求解十分困难，其它近似方法，如线性规划和增强学习等常被用来求解近似的最优策略和状态的价值。如AlphaGo起始神经网络是通过机器学习方法学习人类大师的历史走棋策略，之后通过自我博弈和增强学习方法，利用相邻状态之间的关系不断地迭代优化走棋策略。

[内容来源: Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., & Van, d. D. G., et al. (2016). Mastering the game of go with deep neural networks and tree search. Nature, 529(7587), 484-489.]

贝尔曼方程通常表示离散的动态规划方程，状态是连续情况下的贝尔曼方程通常被称为哈密顿-雅可比-贝尔曼方程(Hamilton–Jacobi–Bellman equation)。

[内容来源:https://en.wikipedia.org/wiki/Hamilton%E2%80%93Jacobi%E2%80%93Bellman_equation]

发展历史

描述

应用数学家理查德-贝尔曼在1953年提出动态规划数学理论和方法。该方法被广泛应用于解决最优控制问题当中，随后在经济学和运筹学上也有广泛的应用。

[内容来源:马振华. (1998).现代应用数学手册:运筹学与最优化理论卷.清华大学出版社.]

随着计算能力和存储能力的提升，深度增强学习的求解能力与日俱增。如围棋因其纬度高，电脑在围棋中取胜人类要比国际象棋等困难得多。2016年DeepMind团队开发的AlphaGo围棋软件以4:1的成绩击败人类顶级棋手李世石。AlphaGo利用深度神经网络和蒙特卡洛树搜索求解出棋盘状态的价值网络(Value Network)和走棋策略网络(Policy Network)，从本质来讲，是用增强学习方法通过贝尔曼方程逐步更新价值网络和策略网络参数。随后DeepMind团队又开发出AlphaGoZero和AlphaGoZero，完全没有通过模仿人类，只通过自我对弈而达到围棋和多种棋类的顶级水平。[内容来源:https://www.nature.com/articles/nature24270]。

现阶段增强学习也广泛应用于控制理论，经济学和运筹学中。

主要事件

	A	B	C
1	年份	时间	相关论文/Reference
2	1935年	德国数学家康斯坦丁·卡拉西奥多里拉格朗日量的形式描述了贝尔曼方程。	Pesch, H. J., & Bulirsch, R. (1994). The maximum principle, bellman's equation, and carathéodory's work.Journal of Optimization Theory & Applications,80(2), 199-225.
3	1953年	贝尔曼提出动态规划问题理论	Bellman, R. (1953). An introduction to the theory of dynamic programming.Rand Corporation Santa Monica Calif.
4	1954年	动态规划方法被首次用在解决运筹学问题上。	Beckmann, Martin; Muth, Richard (1954). "On the Solution to the 'Fundamental Equation' of inventory theory" . Cowles Commission Discussion Paper 2116.
5	1979年	贝尔曼因其在决策过程和控制理论，尤其是动态规划理论和应用上的杰出贡献,被授予IEEE Medal of Honour。	Gannett, E. K. (1998). The ieee medal of honor. Proceedings of the IEEE,86(6), 1295-1297.

发展分析

瓶颈

用贝尔曼方程解决复杂的实际问题的时候，方程中的状态，策略，得到的奖励很难具体定义。如一家大型电商希望优化其仓库存储。很多指标如存储成本，人工成本，提货速度，订单满足率等需要同时优化，而不仅仅是单一的价值函数；换季商品，流行商品，促销活动等影响状态转移的评估；对实际问题构造贝尔曼方程比较困难。

多维动态规划求解会遇到维度灾难的问题。求解的复杂度随着策略空间大小，状态空间大小和阶段数增长而快速增长，实际上贝尔曼方程的直接迭代求解多数情况下无法进行。如在围棋问题上，虽然贝尔曼方程定义清晰，但因其搜索空间巨大给求解造成困难。

多人合作的与非完备信息的博弈问题虽可以转化为求解贝尔曼方程的问题，而且在特定的条件下，多人工智能体通过增强学习可以达到纳什均衡。但是人工智能体在解决多人合作和非完备信息博弈问题上，如星际争霸，5人dota和绝大多数扑克牌游戏上，仍然低于人类职业玩家的水平。

未来发展方向

当贝尔曼方程非常复杂而难以直接求解的时候，一种方案是以贝尔曼方程为出发点，推导出最优策略的性质，然后用其它方法，通过推导出来的性质计算出最优策略。如在库存问题中，如果订货要一段时间才能到，现在要希望连续T天收益期望最大，应该怎么补货的问题，虽可以构建贝尔曼方程，但该方程非常复杂难以直接求解。根据该贝尔曼方程的K-凹性质，可以推出最优策略是这种模式：有个上界S和下界s，当存货小于s的时候，将货物补至S。(s,S)的值可以通过实验或建模求解[内容参考: (1972). Inventory policy.. Harvard Business Review Reprint Dept. .]。从贝尔曼方程出发，推导最优策略性质的方法也是研究贝尔曼方程的一个方向。

计算能力，存储能力和算法的提升使得深度神经网络在求解贝尔曼方程上的应用成为可能，如alphaGo应用深度增强学习方法解决了围棋问题。深度神经网络以状态特征为输入，策略或状态价值为输出，通过不断调节网络参数使输出逼近最优策略或价值。深度神经网络与贝尔曼方程和增强学习结合已有快速发展，也是可预见的未来继续发展方向之一。

非完备信息博弈与多人合作的人工智能问题还有很多问题有待解决。2017年1月30日，AI在一对一的无限注德州扑克游戏中击败人类顶级职业玩家[https://arxiv.org/pdf/1701.01724v1.pdf]。有限注德州扑克和多人扑克问题机器还不能胜过人类顶级玩家。2017年8月，openAI团队开发的Dota2 AI在用影魔中单solo模式下击败人类顶级选手Dendi。 OpenAI 团队称，他们正在研究5V5的合作AI的问题。非完备博弈问题与多人合作问题本质上都是多阶段策略问题，是现在的研究热点。

Contributor: Zhang Chaodong

简介