阿尔伯塔大学李玉喜博士:我们应该如何面对强大的计算机围棋AlphaGo?

AlphaGo 与世界第一的人类棋手柯洁的对弈比赛已经引起了全世界的广泛关注。不出意外,尽管柯洁表现出色,但 AlphaGo 仍然连续取得了两场胜利。明天柯洁还将与 AlphaGo 展开最后一场比赛,是否会出现意外惊喜,让我们拭目以待。最后的比赛之前,加拿大阿尔伯塔大学计算机系博士、博士后李玉喜撰写了一篇解读 AlphaGo 背后的技术以及讨论我们应该如何应对这些技术的文章。李玉喜博士致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授;在美国波士顿任资深数据科学家等。他在 2017 年 1 月在 arXiv 上发表了《Deep Reinforcement Learning: An Overview(深度强化学习综述)》论文。


人类应该如何面对强人工智能?强化学习之父 Rich Sutton 给出的建议是:妥协、合作。

强人工智能还比较弱,离我们可能还很远;弱人工智能却已经非常强了,已经离我们很近。我们需要思考,应该如何面对强大的人工智能?

最近的一个技术突破是在图像识别领域:借助深度学习技术,图像识别准确率已经超过人类。接下来的事情很可能是计算机代替医生看片子。事实上,科学技术的发展导致机器在某个领域超过人类的例子比比皆是,汽车、飞机、机器、电话、Internet,等等,我们都已经习以为常了。现在我们说说围棋。

围棋是一项古老的智力游戏,规则很简单,但下起来非常复杂。几千年来,棋手总结了很多宝贵的经验。在国际象棋上面,人工智能虽然没有完全解决,但是已经远远超过了人类水平。围棋对计算机却非常难。为什么?


  1. 搜索空间非常大,据估算是 250 的 150 次方,比宇宙中的原子数目还多,而国际象棋的搜索空间是 35 的 80 次方;

  2. 很难对当前局面进行评估,建立评估函数。


AlphaGo 做了什么?为什么这么强大?AlphaGo 创造性地整合了深度学习、强化学习、蒙特卡洛搜索树等方法,在学习前人优秀棋谱的基础上,设计出一套比较强的策略;之后,在这个策略的基础上,通过自我学习改进策略;在对弈期间,通过整合策略网络、价值网络、蒙特卡洛搜索树、快棋策略等关键技术手段,寻找赢面最大的落子策略。这个是发表于 Nature 的版本,也是打败韩国顶尖棋手李世乭的版本。


640-55.jpeg

AlphaGo Nature 论文中神经网络训练流程和架构示意图


2017 年对战柯洁的 AlphaGo 有什么改进?根据目前收集到的资料,包括 David Silver、Jeff Dean、Demis Hassabis 等人的演讲,我们可以得到的结论是:更准确的策略网络和价值网络。下面对其进行了比较详细地讨论

AlphaGo 核心技术包括深度学习、强化学习、蒙特卡洛搜索树等。深度学习利用深度神经网络,可以不用或尽量少地依赖研发人员对所研究问题的理解,自动从数据中抽取关键信息,帮助进一步的评估、决策。强化学习是一种决策模型,可以通过观测到的数据,通过试错,不断提高决策能力。蒙特卡洛搜索树则基于统计理论,尽量少地采样数据同时尽量保证评估和决策质量;对围棋来讲,采样是通过模拟下到终局。

策略网络是说,在当前的棋局,判断每一个可能落子点的优劣程度,从而得到最优策略是什么。价值网络是用于判断棋手在当前棋局的胜率几何。AlphaGo 的自我学习是指,通过自己不同版本之间的对弈产生大量训练数据,通过策略网络、价值网络、蒙特卡洛搜索树等技术,不断提高策略网络和价值网络的准确度。新版 AlphaGo 很可能的一个改进是把策略网络、价值网络、蒙特卡洛搜索树、快棋策略等关键技术深度整合,不断迭代,螺旋式上升提高策略网络和价值网络的准确度,大幅度提高棋力。新版 AlphaGo 中的深度神经网络从 12 层增加到了 40 层,也为提高准确度提供了体系结构上的基础。

2016 年的 AlphaGo 版本,通过借鉴人类棋谱和强化学习的自我学习,已经达到了很高的水平,打败了李世乭。2017 年初有 60 连胜的战绩。DeepMind 的演讲中提到 AlphaGo Master 的围棋等级分达到 4500;而从网上查到柯洁 1 月份的等级分不足 3000。根据这样的等级分,可以说 AlphaGo 的棋力已经远远超过人类棋手的水平。当然这个等级分可能不够官方,但有一定的参考意义。

从这个角度说,AlphaGo 现在可以不用人类专家的数据进行训练。不过需要注意的是,这并不是说一开始训练计算机围棋程序就不需要人类棋手的棋谱数据——AlphaGo 是通过这些数据成长起来的——这些人类棋谱,帮助 AlphaGo 更好地为神经网络设了初始值。完全脱离人类棋手的棋谱,理论上并非完全不可能,但效率会非常低,应该是不可取的。与柯洁这样的顶尖棋手对弈,也可以作为 AlphaGo 训练的有益参考。不过,AlphaGo 已经可以找到水平比人类棋手高很多的「对手」,产生大量高质量数据,通过自我学习,不断提高水平。通过与超高手(AlphaGo 自己不同版本)的对弈,AlphaGo 已经有能力应对很复杂的局面,包括复杂的劫争;这些复杂局面基本都在策略网络和价值网络以及蒙特卡洛搜索树的考虑范围之内。我们在前面的对弈中也可以发现,AlphaGo 走出了人类棋手从来没有走过的棋。

AlphaGo 对策略网络和价值网络的训练是离线进行的,需要消耗大量的人力、计算等资源。比赛时的计算量主要体现在蒙特卡洛搜索树上。2016 年对战李世乭的 AlphaGo 的策略网络、价值网络还远不完善。这样,一方面,AlphaGo 需要蒙特卡洛搜索树寻找赢面最高的策略;另一方面,AlphaGo 需要用搜索的深度和广度来补偿策略网络和价值网络的准确度带来的不足。结果就是计算量或搜索量很大。而通过进一步的训练,AlphaGo 提高了策略网络和价值网络的准确度,就可以通过较少的搜索寻找到质量很高的应对策略。这是为什么我们看到 AlphaGo 可以在一台配备 TPU 的计算机上运行的原因。

一个彻底优化的强化学习算法,可以只通过策略函数或价值函数来做出最优决策。就是说,在理想情况下,训练过的 AlphaGo 可以只通过策略网络或价值网络,而不用蒙特卡洛搜索树,就可以直接找到最优应对策略。到那个时候,AlphaGo 程序就可以运行在手机上了。当然,这是理想情况,目前在对弈时还需要与蒙特卡洛搜索树配合,原因如上面所说,海量的搜索空间和复杂的评估函数。

计算机围棋是一个优化问题,优化问题有优化目标函数。AlphaGo 因为引入了机器学习以及蒙特卡洛搜索树,就引入了随机性。Nature 论文里面的算法是以赢为目标,最大概率赢棋。DeepMind 的演讲谈到 AlphaGo 的目标仍然是最大概率地赢棋。计算机围棋也可能有其它目标,比如尽量大幅度地赢棋,但这样很可能要以损失赢棋概率为代价。如果大幅度赢棋也是一个目标,那么计算机围棋程序应该兼顾赢的概率,否则可能适得其反。

AlphaGo 的潜在缺陷在于模型仍未完美,比如,策略函数和价值函数并没有完全准确,蒙特卡洛搜索树是一种模拟、采样方法,无法 100% 保证准确等。机器学习方面的研发人员应该了解,AlphaGo 模型不完美的问题存在于所有基于机器学习的模型中;通过不断完善模型,我们可以得到比较满意的结果。计算机围棋的不完美,人类大脑的计算能力很可能没有能力把它诱发出来,甚至没有能力捕捉到这样的机会。通过深度强化学习等人工智能算法和强大的计算能力,人类棋手很可能已经没有机会向最优秀的计算机围棋程序挑战了。

我们讨论了很多 AlphaGo 的技术细节。那么,我们应该如何面对强大的计算机围棋 AlphaGo?

AlphaGo 是人类的胜利,是人类对智能的理解取得了突破。人类也应该更好地利用这样的进步。对围棋棋手来讲,AlphaGo 或其它优秀的围棋程序,是很好的教练和陪练伙伴;对更广泛的学术界、工业界,甚至政府等部门,需要合理分配资源、制定政策,应对 AlphaGo 核心技术(包括深度学习、强化学习、蒙特卡洛搜索树等)或者说更宽泛的人工智能技术对科学、工程技术、社会等带来的深远影响。如果我们拒绝技术进步、技术革命,很可能的结果是我们自己会被时代抛弃。另一方面,目前人工智能的发展,尤其 AlphaGo,仍然在弱人工智能阶段,所研究的问题还需要有比较明确的规则;而在强人工智能方面,比如推理、抽象、意识、情感等方面,人工智能还在进步;人类对大脑、人本身还在不断探索。

我们人类也曾经面对汽车、飞机、机器、电话、Internet 等技术进步、技术革命。人类对这样的进步、革命的策略一贯是妥协、合作。让我们拥抱、促进人工智能的进步、发展,创造更辉煌的明天。


参考资料

1. Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M., et al. (2016). Mastering the game of go with deep neural networks and tree search. Nature, 529(7587):484–489.

2. Sutton, R. S. and Barto, A. G. (2017). Reinforcement Learning: An Introduction (2nd Edition, in preparation). Section 16.7. http://incompleteideas.net/sutton/book/the-book-2nd.html

3.Li, Y., Deep Reinforcement Learning: An Overview 深度强化学习综述论文,https://arxiv.org/abs/1701.07274.

点击这里,查看机器之心 GMIS 2017 大会官网↓↓↓

640-49.jpeg

理论AlphaGoDeepmind围棋理论阿尔伯塔大学李玉喜