AlphaZero登上Science封面:从小白开始制霸多个游戏

DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。近日,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

此前不久,DeepMind 还推出了 AlphaFold,成功地根据基因序列预测出蛋白质的 3D 形状,将人工智能技术应用在了科学研究领域。

2017 年底,DeepMind 推出了 AlphaZero——一个从零开始自学国际象棋、将棋和围棋的系统。它最终在这三个领域都打败了世界最顶尖的程序。DeepMind 为这些初步结果而感到兴奋,也很高兴看到棋坛社区成员的反应,他们在和 AlphaZero 的对战中看到了一种灵活多变的「非常规」、突破性博弈风格,这种风格不同于之前的任何棋类程序。

今天,DeepMind 将为大家介绍 AlphaZero 的全面评估,此次评估确认并更新了那些初步结果,并已发表在 Science 杂志上。尽管 AlphaZero 是从随机游戏开始训练,并且只知道基本的游戏规则,没有内置专业知识,这一份评估与论文描述了 AlphaZero 如何快速学习每种棋类游戏并成为最强玩家。

前国际象棋世界冠军 Garry Kasparov 评价道:

我无法掩饰对它的欣赏,它下棋的风格灵活多变,和我很像!

这种不受人类玩法规范约束、从零开始学习每种游戏的能力产生了一种与众不同但富有创造力和活力的非传统下棋风格。国际象棋大师 Matthew Sadler 和 Natasha Reg 在他们即将出版的新书《Game Changer》(关于国际象棋的新书,将于 2019 年 1 月出版)中分析了数千场 AlphaZero 的国际象棋比赛。他们认为 AlphaZero 的棋风与任何传统的棋类程序都不相同。Matthew 表示,

「这种感觉就好像发现了一些过去棋坛高手的秘籍一样。」

传统的国际象棋程序(包括世界计算机国际象棋冠军 Stockfish 和 IBM 开创性的 Deep Blue)依赖数以千计由人类玩家制定的规则和启发式方法,这些程序会试着解释游戏中每一种可能发生的情况。日本将棋程序也是将棋专用的,使用类似于国际象棋程序的搜索引擎和算法。

而 AlphaZero 采用了一种完全不同的方法,它用深度神经网络和通用算法取代了这些人工制定的规则,这些网络和算法的初始状态只知道基本规则。在国际象棋中,AlphaZero 在 4 小时后首次超越了 Stockfish;在日本将棋中,AlphaZero 在 2 小时后首次超越了 Elmo;在围棋中,AlphaZero 在 30 小时后首次超越了打败李世石的那版 AlphaGo。注意:每个训练步代表 4096 个棋局。

为了学习每种游戏,未训练的神经网络需要通过强化学习的试验和减少误差的过程进行上百万场自我对弈。起初,系统的走棋完全是随机的,但随着时间的增加,系统不断从赢、输和平局中学习经验,来调整神经网络参数,使其在之后的棋局中选择更高胜率的走法。神经网络的训练时间依赖于游戏类型和复杂度,国际象棋需要 9 小时,日本将棋需要 12 小时,围棋需要 13 天。

系统的一些走法,例如把王将移动到棋盘的中心,这违反了日本将棋理论(从人类视角),似乎把 AlphaZero 推到了危险边缘。但令人难以置信的是,它仍然能掌控局面。它的独特走法预示着,日本将棋还存在其它的可能性。

已训练的神经网络被用于指导搜索算法(即蒙特卡洛树搜索/MCTS),来选择棋局中最有潜力的走法。在每一步中,相比传统棋类引擎,AlphaZero 仅搜索很少的走法。例如在国际象棋中,它仅每秒搜索 6 万种走法,而 Stockfish 每秒要搜索 6 千万种走法。


训练完成的系统将通过和最强的人工引擎比赛进行测试,其国际象棋的对手是 Stockfish,日本将棋的对手是 Elmo,围棋的对手是 AlphaGo Zero(之前已知最强的围棋 AI 系统)。

每一个程序都在其最初设计的硬件上运行。Stockfish 和 Elmo 使用了 44 个 CPU 核心(正如在 TCEC 世界锦标赛中一样),而 AlphaZero 和 AlphaGo Zero 使用的是有 4 个第一代 TPU 和 44 个 CPU 核心的计算机。第一代 TPU 的推理速度和英伟达 Titan V GPU 大致相同,但两者的架构无法直接比较。

所有的比赛都采用了限时规则,每场比赛 3 小时,每一步棋限时 15 秒。

在每一场评估中,AlphaZero 都令人信服地打败了对手:

在国际象棋中,AlphaZero 打败了 2016 年 TCEC(第 9 季)世界冠军 Stockfish,在 1000 场比赛中赢了 155 场,仅输了 6 场。为了验证 AlphaZero 的鲁棒性,研究者还测试了一系列人类选手常见的开局。在每一个开局中,AlphaZero 都打败了对手。研究者还尝试了在 2016 年 TCEC 世界锦标赛中使用的开局,以及一系列和 Stockfish 最新版本的比赛,还有和使用了强劲开局的 Stockfish 变体的比赛。在所有比赛中,AlphaZero 都赢了。

在日本将棋中,AlphaZero 打败了 2017 年 CSA 世界锦标赛版本的 Elmo,赢了 91.2% 的棋局。

在围棋中,AlphaZero 打败了 AlphaGo Zero,赢了 61% 的棋局。

但是,AlphaZero 的下棋风格或许是最令人类选手着迷的地方。拿国际象棋来说,AlphaZero 在自我对弈(self-play)训练中独立发现和执行人类的常见招数,比如开局(openings)、保王(king safety)和兵形(pawn structure)。通过自我学习并且不受限于传统的博弈智慧,AlphaZero 可以开发自己对博弈的认知和策略,添加大量新的有趣招数,从而扩充了数个世纪以来对国际象棋策略的认知。

一个世纪以来,国际象棋被作为人机感知的罗塞塔石碑。AlphaZero 更新了古老棋盘游戏和前沿科技之间的联系。

Matthew Sadler 称,选手首先注意到的是 AlphaZero 的风格,即「它用棋子围住对方国王的方式」。支撑这种风格的是 AlphaZero 灵活多变的游戏玩法,它最大程度上利用了己方棋子的活跃度和移动性,同时尽可能抑制对方棋子的活跃度和移动性。然而,AlphaZero 似乎对「子力」(material)不那么重视。现代国际象棋中每个棋子具备一个值,如果一名选手在棋盘上棋子的值大于对手,则他拥有子力优势(material advantage)。而 AlphaZero 会在比赛刚开始时就牺牲子力来获取优势,但长期来看这种做法得不偿失。

「令我印象深刻的是,AlphaZero 能够在非常广泛的位置和开局中展示自己的下棋风格。」Matthew 说道。他还观察到 AlphaZero 从第一步开始就以「人类的一贯宗旨」用非常审慎的风格下棋。

「传统程序非常强悍,很少犯明显的错误,但是当面对没有具体、可计算解的位置时会慌乱。而 AlphaZero 在面对这些需要「感觉」、「洞见」或「直觉」的位置时依然镇定自若。」

在最近 Magnus Carlsen 和 Fabiano Caruana 的世界国际象棋冠军赛中,这一其它传统国际象棋程序所不具备的独特能力被用于为国际象棋迷提供实时见解和评论,《Game Changer》一书将继续探讨 AlphaZero 的这一能力。Natasha Regan 表示:「看到 AlphaZero 的分析与其他顶级国际象棋程序甚至顶级大师的区别非常令人振奋,AlphaZero 可以成为整个国际象棋社区的强大教学工具。」

AlphaZero 的教学能力从 2016 年 AlphaGo 挑战围棋冠军李世乭的比赛中就可见一斑。在博弈期间,AlphaGo 下了许多手具有高度创造性的棋招,包括第二场比赛的第 37 手,这些棋招推翻了数百年的围棋思维定势。这些及其它很多棋招已经被包括李世乭在内的棋手仔细研究过。李世乭在谈论第 37 手棋时说:「我本来认为 AlphaGo 是基于概率进行计算的,它只是一台机器。但是当我看到这一手棋后,我改变了想法,AlphaGo 确实具有创造力。」

其影响远远超出了我心爱的棋盘……不仅是因为这些自学成才的专家机器表现得非常出色,还因为我们可以从它们产生的新知识中学习。

和围棋一样,AlphaZero 对国际象棋的创造性反应同样令人兴奋,因为自计算机时代以来,这对于人工智能来说一直是一个巨大的挑战。早期的先驱者巴贝奇、图灵、香农、冯·诺依曼都曾尝试手动设计国际象棋程序。AlphaZero 的意义远不止是国际象棋、将棋或围棋。为了创建能够解决大量现实问题的智能系统,我们需要它们能够灵活适应新情况。虽然在实现这一目标方面取得了一些进展,但在人工智能研究领域创建能够以非常高的标准掌握特定技能的系统仍然是一个重大挑战,因为当任务稍有改动时,系统往往会失败。

AlphaZero 掌握了三种不同的复杂博弈游戏,并且有潜力完成任何完美信息博弈perfect information game),因此 AlphaZero 是解决该问题的重要一步。AlphaZero 表明单个算法也能在一系列设定下学习新的知识。虽然目前它还处于早期阶段,但 AlphaZero 的创造性见解及其在 AlphaFold 等其它项目的优秀结果令 DeepMind 团队对构建通用学习系统充满了信心。这种通用学习系统也许有一天能在一些重要且复杂的科学问题上帮助我们找到新的解决方案。

论文:A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play

摘要:棋类游戏是人工智能历史上研究时间最长的领域,其中最强的程序主要基于一系列复杂的搜索技术。这些搜索技术只适应特定的领域,且它们使用人工设计的评估函数,这些函数经过人类专家数十年的修正与精炼。相比之下,最近的 AlphaGo Zero 程序通过自我博弈及强化学习实现了超越人类的表现。在这篇论文中,我们将这一方法推广到单个 AlphaZero 算法,它在很多具有挑战性的博弈游戏上能实现超越人类的表现。从随机博弈开始,且除了游戏规则不提供任何领域相关的知识,AlphaZero 令人信服地击败了国际象棋、将棋(日本象棋)和围棋的世界冠军程序。

如果读者希望了解 AlphaZero 的完整资料,可以仔细阅读及实现这一启发性的工作:

参考链接:https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/
理论强化学习AlphaFoldAlphaZeroDeepmind
3
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

阿尔法围棋技术

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

完美信息博弈技术

在经济学中,完全的信息是完美竞争的特征。 随着市场信息的完善,所有消费者和生产者都被假定在对自由市场体系进行理论化和财务政策效应时,对产品的价格,效用,质量和生产方法有完整的认识。

深蓝(超级电脑)技术

深蓝是由IBM公司开发的一款专门用于分析国际象棋的超级计算机。1996年2月,深蓝首次挑战国际象棋世界冠军俄罗斯选手卡斯巴罗夫(Garry Kasparov),但以2: 4落败。1997年5月,改良后的深蓝在比赛中击败卡斯巴罗夫,成为第一个在标准比赛时限内击败国际象棋世界冠军的电脑系统。比赛结束后,IBM公司退休了深蓝。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~