阿尔法围棋 | 机器之心

简介

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序，也是第一个打败围棋世界冠军的计算机程序，可以说是历史上最强的棋手。

技术上来说，AlphaGo的算法结合了机器学习（machine learning）和树搜索（tree search）技术，并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索（MCTS：Monte-Carlo Tree Search），以价值网络（value network）和策略网络（policy network）为指导，其中价值网络用于预测游戏的胜利者，策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的，神经网络的输入是经过预处理的围棋面板的描述（description of Go board）。

AlphaGo系统的神经网络最初是从人类游戏玩法的专业知识中引导（bootstrap）出来的，试图通过使用大约3000万次移动的数据库来匹配记录的历史游戏中的专业棋手的动作。一旦达到了一定的熟练程度，就会进行进一步的训练，通过强化学习的试错来调整自己的策略，直至打败人类顶级围棋选手。训练AlphaGo需要巨大的计算资源，如2015年10月的分布式运算版本AlphaGo使用了1,202块CPU及176块GPU，DeepMind公司是使用Google云端平台训练AlphaGo。

来源：

Wikipedia: https://en.wikipedia.org/wiki/AlphaGo

DeepMind：https://deepmind.com/research/alphago/

Google Blog：https://blog.google/topics/machine-learning/alphago-machine-learning-game-go/

发展历史

一直以来，相比起国际象棋，计算机要在围棋方面胜过人类的难度更大，因为围棋有着更大的分支因子（branching factor）使得使用传统的AI方法（如alpha-beta修剪，树遍历和启发式搜索）变得非常困难。 1997年，IBM公司的计算机程序Deep Blue在比赛中击败了国际象棋世界冠军Garry Kasparov。在此后的近20年时间里，使用人工智能技术的最强大的Go程序仅仅达到了业余5段围棋选手级别，且在无让子的情况下仍然无法击败专业的Go棋手。2012年，运行在四台个人计算机集群上的软件程序Zen分别以让5子和让4子的情况下两次击败了日本9段选手武宫正树（Masaki Takemiya）。2013年，计算机程序Crazy Stone在让4子的情况下击败了日本9段棋手石田芳夫（Yoshio Ishida）。

据DeepMind公司介绍，AlphaGo研究项目始于2014年，目的是为了测试一个使用深度学习的神经网络如何在Go上竞争。 AlphaGo比以前的Go程序有了显着的改进，在与其他可用围棋程序（包括Crazy Stone和Zen）的500场比赛中，在单台计算机上运行的AlphaGo赢得了除一个之外的所有胜利，而运行在多台计算机上的AlphaGo赢得了与其他Go程序对战的所有500场比赛，在与单台计算机上运行的AlphaGo比赛中赢下了77％的对阵。 2015年10月的分布式版本使用了1,202个CPU和176个GPU，当时它以5: 0的比分击败了欧洲围棋冠军樊麾先生（职业2段选手），轰动一时。这是计算机围棋程序第一次在全局棋盘（19 x 19）且无让子的情况下击败了人类职业棋手。2016年3月，通过自我对弈进行练习的加强版AlphaGo在比赛中以4: 1击败了世界围棋冠军李世石，成为第一个在无让子情况下击败围棋职业九段棋手的计算机程序，载入史册。赛后，AlphaGo被韩国棋院授予名誉职业九段的称号。2016年12月至2017年1月，再度升级的AlphaGo在未公开真实身份的情况下，以Master名义在网上和中韩日台等一流职业棋手过招，取得了60战全胜的佳绩。2017年5月的乌镇围棋峰会上，进阶版的AlphaGo以3: 0的比分击败了当时世界第一围棋手柯洁。进阶版的AlphaGo相比起李世石版本，运算资源消耗更少，赛后，中国围棋协会授予AlphaGo职业围棋九段的称号。

2017年10月，DeepMind发布最新强化版的AlphaGo Zero，这是一个无需用到人类专业棋谱的版本，比之前的版本都强大。通过自我对弈，AlphaGo Zero经过三天的学习就超越了AlphaGo Lee版本的水平，21天后达到AlphaGo Maseter的实力，40天内超越之前所有版本。2017年12月，DeepMind发布AlphaZero论文，进阶版的AlphaZero算法将围棋领域扩展到国际象棋、日本象棋领域，且无需人类专业知识就能击败各自领域的世界冠军。

主要事件

年份	事件	相关论文
2016年	DeepMind公司在Nature上发布了击败欧洲围棋冠军樊麾（Fan Hui）的AlphaGo版本论文，结合深度神经网络和树搜索技术	Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Dieleman, S. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
2016年	2016年3月，通过自我对弈学习的加强版AlphaGo在比赛中以4:1击败了世界围棋冠军李世石，成为第一个在无让子情况下击败职业围棋九段选手的计算机
2016年	2016年12月至2017年1月，升级版的AlphaGo在未公开真实身份的情况下，以Master的名义在网上和顶级棋手比赛，取得了60战全胜的佳绩。
2017年	2017年5月的乌镇围棋峰会上，进阶版的AlphaGo以3: 0的比分击败了当时世界第一围棋选手柯洁
2017年	DeepMind公司在Nature发布了AlphaGo Zero论文，和之前的AlphaGo相比，新版本的AlphaGo Zero无需人类的知识，计算机程序通过自我对弈学习升级。	Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., ... & Chen, Y. (2017). Mastering the game of go without human knowledge. Nature, 550(7676), 354.
2017年	DeepMind公司发布AlphaZero论文，进阶版的AlphaZero算法将围棋领域扩展到国际象棋、日本象棋领域，且无需人类专业知识就能击败各自领域的世界冠军	Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., ... & Lillicrap, T. (2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. arXiv preprint arXiv:1712.01815.

发展分析

瓶颈

-AlphaGo目前只是在围棋、国际象棋、日本象棋等棋类游戏中表现优异，离通用人工智能这个目标还太遥远。如遇到复杂策略或分层策略如星际争霸等游戏中，计算机程序还任重道远。

未来发展方向

-AlphaZero的出现意味我们朝通用强化学习（general reinforcement learning）又近了一步。正如DeepMind公司所讲，未来我们可以在蛋白质折叠（protein folding），减少能源消耗（reduce energy consumption）或者寻找革命性的新材料（searching for revolutionary new materials）方面寻找新的突破口。

Contributor: Yufeng Xiong

简介