深度Q学习 | 机器之心

简介

Q学习是一种无模型（model-free）的强化学习方法，学习如何在给定（有限）马尔可夫决策过程（MDP）找到最优的动作选择策略。在Q学习和其它相关的技术中，主体（agent）的目标是通过它与环境的交互历史（history）来学习一个最优策略。而历史记录是主体一系列的状态-动作-奖励值（state-action-rewards）（s代表一个状态，a代表一个动作，r代表一个奖励）：

<s0, a0, r1, s1, a1, r2, s2, a2, r3, s3, a3, r4, s4...>.

用行动价值函数（Q(s, a)）表示每一对状态-动作（state-action）的效用（utility），

Q：S x A → R

主体在状态 s_t 时选择执行一个动作 a_t 获得一个奖励 r_t 并到达一个新的状态 s_t+1，然后更新相应的Q值函数。Q学习算法的核心是根据旧的Q值和新的Q值估计进行权重平均的一个值迭代更新（value iteration update）：

迭代更新的Q函数最终给出了主体在给定状态下采取给定行动的预期效用，当这种行动价值函数被学习时，主体可通过简单地选择在每个状态中具有最高价值的行为来构建最优策略（optimal policy）。

Q学习的优势之一是能够比较可用动作的预期效用，而不需要环境模型。另外Q学习是可以保证收敛到一个最优策略的（Watkins & Dayan，1992）。但因为Q学习是完全无模型的学习方法，从而需要大量的学习样本，故收敛速度可能很慢。

一般来说有两种方法来估计Q值函数，一种是表格查询方法（tabular），一种叫函数逼近方法（function approximation）。表格查询方法需要维护并操作每一个状态的Q值，所以当状态空间、动作空间太大或是在连续空间领域时，表格查询方法就不适用了。相比之下，函数逼近方法没有这个限制，最近也受到更广泛的关注。当使用深度学习作为估计Q值函数的函数逼近方法时，我们称之为深度Q学习。

上述传统的Q学习（classical Q-learning）对于有限的状态和行动空间是收敛的，只要满足每一对状态-行动都被无限次地更新。除此之外，我们也可以使用神经网络（Neural Networks）来实现Q值函数的更新。和传统的Q学习不断更新一个Q值函数表格不一样，神经网络实现Q值函数的更新是不断最小化一个损失函数（loss function），这个损失函数表示当前的Q值与预期的Q值间的差异。我们可以利用如梯度下降算法来调整神经网络的权重来最小化这个损失函数。我们把这种结合深度神经网络来实现Q学习的方法称为深度Q学习，相应的神经网络称为深度Q网络（Deep Q-Network）。

来源：

Wikipedia: https://en.wikipedia.org/wiki/Q-learningUrl: http://artint.info/html/ArtInt_265.html论文：Riedmiller, M. (2005, October). Neural fitted Q iteration-first experiences with a data efficient neural reinforcement learning method. In ECML (Vol. 3720, pp. 317-328).DeepMind：https://deepmind.com/research/dqn/

发展历史

1989年，Watkins在自己的博士论文（Learning from delayed rewards）中最早提出Q学习算法。1992年，Watkins和Dayan在机器学习的一个技术笔记（Technical note）给出了Q学习的收敛性证明，证明了当所有的状态都能重复访问时，Q函数最终会收敛到最优Q值。随着2012年的ImageNet比赛，Alex Krizhevsky和Geoffrey Hinton等利用深度学习技术（CNNs）取得了巨大的进步，深度学习得到了前所未有的关注。2013年，DeepMind在NIPS发表了Playing atari with deep reinforcement learning论文，论文中主体利用深度学习网络（CNNs）直接从高维度的感应器输入（sensory inputs）提取有效特征，然后利用Q-Learning学习主体的最优策略。这种结合深度学习的Q学习方法被称为深度Q学习（DQL）。

2015年初，DeepMind在Nature发表了DQN的改进版论文，论文使用了经验回放（Experience Replay）技术以及增加一个目标网络（Target Network），改善了原始版DQN在实际训练中不稳定的问题。为进一步改善DQN在训练中不稳定的问题，Hado Van Hasselt等提出周期性地冻结目标网络的Double DQN（Deep Reinforcement Learning with Double Q-Learning），Tom Schaul等提出prioritized experience replay的方法提高抽样效率，Wang Ziyu等提出Dueling DQN的网络结构，通过将Q函数（Q(s, a)）分解成状态函数（V(s)）和优势函数（A(a)）可以学习到更健壮的状态函数值。2016年，Volodymyr Mnih等提出并行式的深度强化学习方法（A3C），在多数Atari游戏中取得最优的成绩。

2015年，致力于研究通用人工智能的OpenAI公司成立，OpenAI与UC Berkeley紧密合作，他们在深度强化学习应用到Robotics方面取得了巨大的成就，另外他们提供的Gym平台，也深受深度强化学习研究者欢迎。

主要事件

年份	事件	相关论文
1989年	Watkins在自己的博士论文中首先提出Q学习这一概念	Watkins, C. J. C. H. (1989). Learning from delayed rewards (Doctoral dissertation, King's College, Cambridge).
1992年	Watkins和Dayan给出了Q学习算法的详细证明，只要主体所有的动作都能在所有的状态下重复抽样，Q学习最终能百分之百收敛到最优的策略值。	Watkins, C. J., & Dayan, P. (1992). Q-learning. Machine learning, 8(3-4), 279-292.
2012年	Alex Krizhevsky等利用深度学习技术在ImageNet比赛中脱颖而出	Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).
2013年	DeepMind发表了第一版本的DQN	Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.
2015年	DeepMind在Nature上发表了改进版的DQN，运用了experience replay以及target network等技术来改善DQN的训练收敛性问题	Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., ... & Petersen, S. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.
2015年	OpenAI公司成立，致力于研究通用人工智能。其提供的Gym平台，在深度强化学习研究者中也是非常受欢迎。
2016年	Volodymyr Mnih等提出并行式的深度强化学习（A3C），在多数Atari游戏学习中胜出	Mnih, V., Badia, A. P., Mirza, M., Graves, A., Lillicrap, T., Harley, T., ... & Kavukcuoglu, K. (2016, June). Asynchronous methods for deep reinforcement learning. In International Conference on Machine Learning (pp. 1928-1937).

发展分析

瓶颈

-深度Q学习目前在很多游戏中取得了人类顶级专家的水平，但在真实世界的学习能力和人类还相差甚远，如视觉导航（visual navigation），探索（exploration），推理（reasoning）等等。

-深度Q学习属于无模型的（Model-free）的强化学习方法，采样效率底下（sample inefficiency），导致训练难度大。

未来发展方向

-基于模型的深度强化学习（Model-Based DRL）：学习环境的动态模型，大大提高采样效率（sample efficiency），从而提高学习效率

Contributor: Yufeng Xiong

简介