深度强化学习 | 机器之心

简介

强化学习（Reinforcement Learning）是主体（agent）通过与周围环境的交互来进行学习。强化学习主体（RL agent）每采取一次动作（action）就会得到一个相应的数值奖励（numerical reward），这个奖励表示此次动作的好坏。通过与环境的交互，综合考虑过去的经验（exploitation）和未知的探索（exploration），强化学习主体通过试错的方式（trial and error）学会如何采取下一步的动作，而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励（accumulated reward）。

一般来说，真实世界中的强化学习问题包括巨大的状态空间（state spaces）和动作空间（action spaces），传统的强化学习方法会受限于维数灾难（curse of dimensionality）。借助于深度学习中的神经网络，强化学习主体可以直接从原始输入数据（如游戏图像）中提取和学习特征知识，然后根据提取出的特征信息再利用传统的强化学习算法（如TD Learning，SARSA，Q-Learnin）学习控制策略（如游戏策略），而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

来源：

Scholarpedia: http://www.scholarpedia.org/article/Reinforcement_learning

DeepMind blog: https://deepmind.com/blog/deep-reinforcement-learning/

发展历史

虽然将深度学习和增强学习结合的想法在几年前就有人尝试，但真正成功的开端是DeepMind在NIPS 2013上发表的Playing Atari with Deep Reinforcement Learning一文。论文中主体利用深度学习模型（CNNs）直接从高维度的感应器输入（sensory inputs）提取特征，然后再使用强化学习算法学习控制策略。训练好的深度强化学习主体在七个Atari 2600游戏中测试，其中在六个游戏中的表现超过了所有以前的方法，在三个游戏中超过了人类专家的水平。由于这种学习模型是一个卷积神经网络，结合Q-Learning（Watkins, C. J., & Dayan, P. (1992). Q-learning. Machine learning, 8(3-4), 279-292.）的一种变体来进行训练学习，我们称之为深度Q学习（Deep Q-Learning），相应的网络称为深度Q网络（DQN）。

2015年初，DeepMind在Nature上发表了DQN的改进版本，论文使用了经验回放（Experience Replay）技术以及增加一个目标网络（Target Network），改善了原始版DQN在实际训练中不稳定的问题。2016年初，DeepMind的AlphaGo在Nature横空出世，利用蒙特卡罗树搜索方法（Monte-Carlo Tree Search）训练的深度神经网络在和其它Go程序对弈时达到了99.8%的胜率，还5:0赢了欧洲围棋冠军Hui Fan。为了进一步验证AlphaGo的实力，2016年3月在韩国首尔，AlphaGo与18次获得世界围棋冠军的李世石进行了一场举世瞩目的对弈，最终AlphaGo以4:1赢得比赛的胜利。2017年9月，DeepMind公司发表了AlphaGo的进阶版AlphaGo Zero，无需人类的知识作为指导，只从自我对弈中进行强化学习。AlphaGo Zero在和之前打败了冠军的AlphaGo对弈中完胜（100:0）。最新的AlphaZero更通用，通过自我对弈的深度强化学习算法，在不到24小时内可以从随机下棋训练到超过人类的水平，并在围棋、象棋和将棋（日本象棋）方面都打败了世界冠军程序。

主要事件

年份	事件	相关论文
2013年	DeepMind发表了第一版本的DQN	Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.
2015年	DeepMind在Nature上发表了改进版的DQN，运用了experience replay以及target network等技术来改善DQN的训练收敛性问题	Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., ... & Petersen, S. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.
2015年	OpenAI公司的成立，致力于研究通用人工智能。之后其提供的OpenAI Gym平台，在深度强化学习研究者中也是非常受欢迎。
2016年	UC Berkeley发表了深度强化学习应用在Robotics的论文。最近几年在深度强化学习领域，与UC Berkeley合作紧密的OpenAI公司和DeepMind公司两者成为行业引领者。	Levine, S., Finn, C., Darrell, T., & Abbeel, P. (2016). End-to-end training of deep visuomotor policies. Journal of Machine Learning Research, 17(39), 1-40.
2016年	DeepMind在Nature上发表了AlphaGo论文，结合人类专家棋谱的监督学习和自我对弈的强化学习进行训练，这是计算机程序第一次在全局围棋比赛中打败了人类专家选手	Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Dieleman, S. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
2016年	Volodymyr Mnih等提出并行式的深度强化学习（A3C），在多数Atari游戏学习中胜出	Mnih, V., Badia, A. P., Mirza, M., Graves, A., Lillicrap, T., Harley, T., ... & Kavukcuoglu, K. (2016, June). Asynchronous methods for deep reinforcement learning. In International Conference on Machine Learning (pp. 1928-1937).
2017年	DeepMind公司发表了AlphaGo的进阶版AlphaGo Zero，无需人类专家棋谱的监督学习，完全通过自我对弈中深度强化学习训练，训练结果比原始版更智能更强大	Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., ... & Chen, Y. (2017). Mastering the game of go without human knowledge. Nature, 550(7676), 354-359.
2017年	David Silver等发表了更通用的AlphaZero，在围棋、象棋、将棋等方便都打败了世界冠军程序	Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., ... & Lillicrap, T. (2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. arXiv preprint arXiv:1712.01815.

发展分析

瓶颈

-深度强化学习目前只是在很多游戏中取得了超越人类顶级专家的水平，在真实世界的学习能力和人类还相差甚远，如视觉导航（visual navigation），探索（exploration）等等。

-目前大部分成功的深度强化学习主体都是无模型的（Model-free）（如A3C，A2C， ACKTR，TRPO， PPO等），采样效率底下（sample inefficiency），这导致训练难度极大。

未来发展方向

-基于模型的深度强化学习（Model-Based DRL）：学习环境的动态模型，大大提高采样效率（sample efficiency），从而提高学习效率

-通用人工智能（Artificial General Intelligence）：目前的深度强化学习主体大都缺乏泛化能力（generalization ability）,一旦具备这种能力，那我们离通用人工智能的目标就更近一步了。

Contributor: Yufeng Xiong

简介