蛋酱 泽南 张倩报道

1:2,李世石最后一战被AI击败,唯一战胜过AlphaGo的人退役了

退役赛的最后一局,李世石回到了自己的家乡。对战之地距离李世石的出生地飞禽岛 40 多公里,他曾在飞禽岛度过了他的童年时光,也是在这里决定成为职业围棋选手。

12 月 21 日,全罗道新安郡曾岛 EI dorado 度假村,李世石在第 181 手投子认输。这是与 Handol 退役赛对战的最后一局,前两局,李世石一胜一负。最后一盘棋,还是惜败于 AI。

12 岁入段,36 岁正式退役,24 年揽获 14 项国际项冠军和 32 项国内冠军,从此以后,「李世石九段」不会再以职业棋手的身份出现在众人面前。

最后一战,他还是选择了 AI

11 月 19 日,李世石向韩国棋院正式递交辞呈,宣告了自己 24 年职业围棋生涯的结束。

在接受韩联社采访时,他表示自己之所以选择退役,是因为「AI 不可战胜」:「在围棋 AI 出现以后,我发觉即使自己成为第一名,也永远需要面对一个不可战胜的实体。」

李世石曾经的对手,曾经「绝代双骄」的另一人——中国围棋职业选手古力九段在得知这一消息之后,在社交平台上公开表示:「此刻只想给他一个大大的拥抱。」

图源:新浪微博 @ 古力

当很多人都以为李世石的最后一战会选择与古力对决时,李世石却选了韩国围棋 AI「Handol」,理由是担心「最后和他下棋的人会有负担」。

这是他自从 2016 年负于 AlphaGo 之后,再一次对战围棋 AI,也是人类棋手第一次与 AI 下升降三番棋。

一直以来,人们都认为顶尖人类棋手与 AI 之间的差距在二子到三子之间,但由于从来没有进行过正式比赛的对局,所以真正差距无从得知。李世石提到,自己最终选择下升降棋,也是想确认人类和人工智能之间的差距到底有多少。在对战 Handol 之前,李世石说自己已经有大概 5 个月的时间没有参加过比赛,也几乎没有进行过围棋训练。

北京时间 12 月 18 日 12 时,李世石与 Handol 开始第一局对弈。李世石执黑被让两子,按 7 目半还子。前半盘黑棋先拿到右上角实地,胜率一直保持在 80% 以上。随后白棋开始反击,直到第 78 手之前,胜率一直处于上升阶段。

转折点出现在李世石的第 78 手(值得一提的是,李世石当年对战 AlphaGo 获胜的唯一一局,胜负手同样是第 78 手)。黑棋吃掉白棋棋筋,加之 Handol 在第 84 手征子失误,只得在第 92 手时投子认输。

第 78 手,李世石再现「神之一手」。

这场比赛仅用两小时就分出了胜负, 在 100 手以内即告结束。尽管李世石表示赛前曾连续练习了十天的被让两子棋,「几乎醒着的时候都在练棋」,但他也表示未能料到自己会在与 AI 的对决中获胜。

第一局的最终棋局。

12 月 19 日,第二局。由于李世石在第一局比赛中获胜,第二局 Handol 不再让子,李世石仍然执黑先行。

这一局,李世石在第 31 手出现误判,而后白棋的胜率预测一直保持在 90% 以上,到了第 40 手以后,胜负已经基本明朗。

第 31 手。

第二局的最终棋局。

最终李世石在第 122 步认输。这一局时长 3 小时 20 分钟,至此,李世石与 Handol1:1 战平,而剩下的最后一局尤为关键。

人类再次在围棋「人机大战」中取得了一场胜利。谷歌 DeepMind 资深研究员、ALphaGo 主要程序开发者黄士杰曾在看完前两盘对决之后表示,如果再有两年的算法更新和优化,AlphaGo Master 将会是最强的棋手。但 AI 要做到万无一失,仍需要解决 bug 问题。

12 月 21 日,最后一局的赛场转移到了李世石的家乡全罗道新安郡。这一场李世石依然受两子执黑挑战 AI,黑棋贴目 7 目半。人类与 AI 在棋盘右下角展开激战。

在最后一局中,Handol 解除了大部分限制,在每一步上花费了更多「思考」时间。AI 执白在右下角存活之后,逐渐将胜率从 20% 扳至五五开,李世石的思考时间则逐渐用尽。

弈至 111 手,李世石胜率降到 57.5%。图源:新浪棋牌微博。

下午 2 时 50 分左右,李世石进入读秒,此时白棋已在右侧和左上成活,李世石试图通过打劫寻找 AI 的破绽。

但李世石的努力并没有扭转颓势,在弈至 159 手时,AI 判断李世石的胜率降到 5%。

弈至 159 手,李世石胜率降到 5%。图源:新浪棋牌微博。

最终,在行至 181 手时,李世石投子认负。

这是三局之中最漫长的一局,双方对弈超过四小时。

第三局最终棋局。

赛后,李世石在接受采访时表示:「这场比赛中,Handol 的表现与前几场类似,如果自己能够再谨慎一点,或许比赛的结果会有所不同。」对于退役后的工作,李世石还没有做出选择。

棋坛再无「李世石九段」

李世石的退役消息来得突然,但也算早有苗头。今年 3 月份,李世石在「三一运动一百周年纪念对局」中败于柯洁之后,即透露过自身想要「在一年之内」退役的想法。

除了没有信心战胜 AI,李世石的退役似乎也和自己与韩国棋院之间的矛盾分不开。在韩国棋院的 24 年中,李世石曾提交过休职申请,也强行退出过棋士会,特立独行的处事方式与其在棋盘上的风格如出一辙。

李世石 1983 年出生在距离全罗南道新安郡的飞禽岛,爱好围棋的父亲是李世石的第一任导师。6 岁开始接触围棋的李世石是兄弟姐妹中年龄最小的一个,但也是天赋最高的一个。9 岁时,因大哥李相勋成功入段,父亲终于也下定决心将李世石送到有「韩国围棋山脉」之称的首尔权甲龙围棋道场学棋。

图源:https://imgur.com/a/dHz3V

3 年零 6 个月后,年仅 12 岁的李世石成功入段,从此在韩国棋院开始了职业围棋生涯。24 年来,李世石已经获得了 14 个国际比赛冠军,32 次国内比赛冠军,皆仅次于李昌镐,高居历史第二。

2000 年,当时的「李世石三段」在巴斯卡杯天元战和倍达王战中击败柳才馨九段和刘昌赫九段,连获两个冠军,成为围棋史上成就最高的「三段」选手。但他却拒绝参加升段赛,声称「段位并不能体现实力」。为此,韩国棋界不得不废除了升段赛,改以成绩定段位。2001 年,李世石在获得第五届 LG 杯世界棋王赛亚军后升至七段,2003 年获 LG 世界棋王战冠军,直升九段。

李世石的围棋生涯中曾有一次「妥协」的退役风波,2009 年 6 月,李世石曾向韩国棋院提交过休职书,称因「韩国棋院对棋手不合理的约束」而身心疲惫,计划从当日起休职到 2010 年底。半年后,李世石复职,但桀骜不驯的性格并未改变。2016 年,李世石又与哥哥李相勋一起,因韩国棋院「克扣奖金」的原因退出了棋士会。

唯一打败过 AlphaGo 的人类

尽管在围棋上已经登峰造极,真正让李世石名声大噪的还是与 AlphaGo 的「人机大战」。

李世石在 2016 年 3 月与 AlphaGo 的一番激战,被认为是人工智能历史上的一次里程碑事件——虽然李世石以 1:4 的比分落败,但在比赛的第四局,李世石的惊天翻盘却让他成为了迄今为止唯一一个战胜过 AlphaGo 的棋手。他在第 78 手出人预料的一挤,让 AlphaGo 后续的反应出现失常,彻底改变了战局——这与此次在第一局中战胜 Handol 的场面何其相似。

李世石面对 AlphaGo 的那一次胜利,曾经为人类战胜人工智能带来了一线希望,但后来李世石将胜利归功于 AlphaGo 程序的缺陷。「我的第 78 手并不应该用直接的方式应对。」

当然,这样的 bug 不止存在于 AlphaGo。李世石曾说:「在腾讯『绝艺』中,这样的 bug 至今仍然会出现。即使现在的绝艺已经可以做到让人类两子胜利了,但它仍然会以奇怪的方式输掉比赛,这是因为一个 bug 所致。」

在前三场比赛输给 AlphaGo 之后,他曾感到相当沮丧。「我很少看网上对我的评论,但是输给了阿尔法狗以后,我很好奇大家怎么看我。意外的是,很少有人批评我。」

人类真的永远不会再战胜 AI?

这一次对战 Handol,李世石赚了 2 亿韩元(约合 121 万元人民币),包括 1 亿 5000 万韩元的基本出场费,每胜一局额外获得 5000 万韩元的奖金。

自从 2016 年 AlphaGo 大战李世石之后,围棋 AI 即被推上风口浪尖。基于近年以来深度学习强化学习的发展,AlphaGo 和各类围棋 AI 的不断升级,人们一度认为,人类再不可能战胜 AI。

Handol 是韩国 NHN 娱乐公司推出的一款围棋 AI,用以训练的数据来自 1999 年以来 NHN 公司在游戏业务方面的大量积累。与 AlphaGo 的进化路线相似,2017 年 12 月,Handol1.0 出世,当时已拥有人类职业棋手 9 段棋力,可以实现在人类棋谱及既定模式的基础上对棋局进行预测,到了 Handol 2.0 已经能够脱离棋谱,自己与自己下棋。在 NHN 看来,Handol2.1 的实力已经超越了当初对战李世石的 AlphaGo。

2019 年 1 月,Handol 连续战胜了申旻埈九段、李东勋九段、金智硕九段、朴正焕九段和申真瑞九段五位韩国顶级围棋选手,8 月在山东举行的「中信证券杯」世界智能围棋公开赛中,Handol 也捧回了季军奖杯。

在「Handol」首局落败之后,NHN 公司人工智能项目的负责人李昌律推测称,「输掉这一局的原因 kennel 在于「Handol」总体学习量尚且不足,缺少对开局让两子和让三子等棋局的学习」。

图源:https://pulsenews.co.kr/view.php?sc=30800024&year=2019&no=1065937

据「Handol」研发团队估算,「Handol」的棋力水平相当于世界围棋中的 4500 积分,而目前李世石的积分为 3414 分,柯洁、朴廷桓等人类顶尖棋手的积分接近 3700 分。

围棋 AI 领域,棋力最高的选手仍然是 DeepMind 公司的 AlphaGo,它也是第一个击败人类围棋世界冠军的人工智能程序。在 2017 年柯洁与 AlphaGo 对战之后,David Silver、谷歌大脑负责人 Jeff Dean 等人曾在乌镇围棋峰会现场对 AlphaGo 背后的技术进行过解读。

 AlphaGo 最初主要是依靠大量学习人类棋手的棋谱来提高棋艺,之后 进入到完全的自我深度学习阶段,也就是完全摒弃人类棋手的思维方式,按照自己(左右互搏)的方式研究围棋。结合监督学习强化学习的优势,AlphaGo 通过训练形成一个策略网络将棋盘上的局势作为输入信息,并对有所可行的落子位置形成一个概率分布。然后训练一个价值网络对自我对弈进行预测,以-1(对手的绝对胜利)到 1(AlphaGo 的绝对胜利)的标准,预测所有可行落子位置的结果。

AlphaGo 真正的优势来源于将策略网络和价值网络整合进基于概率的蒙特卡罗树搜索(MCTS)中。在获取棋局信息后,AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最繁琐考察的位置将成为 AlphaGo 的最终选择。经过先期的全盘探索和过程中对最佳落子的不断揣摩,AlphaGo 的探索算法就能在其计算能力之上加入近似人类的直觉判断。2016 年 1 月 28 日,击败李世石的 AlphaGo 版本登上《Nature》封面,随后在 3 月即 4:1 击败李世石,名声大振。

和人类不同,AlphaGo 没有先入为主的概念,这恰恰也是所有围棋 AI 的优势所在:尽管有时 AI 的落子显得违反直觉,但确实是最合理的。

乌镇之后,DeepMind 宣布 AlphaGo 从此不会再参与比赛,但在几个月后推出了更强版本的围棋 AI「AlphaGo Zero」。如果说 AlphaGo 版本最初还需要观察数千场人类围棋比赛来训练如何学习围棋,AlphaGo Zero 则直接跳过这一步,从自己完全随机的下围棋开始来学习围棋,几天之内即超越人类棋手的水平,并且以 100:0 的比分打败了之前战胜世界冠军的 AlphaGo。

早期的 AlphaGo 使用「决策网络」选择下一步棋的位置,使用「价值网络」预测每一个位置上决定的胜者。这两个网络在 AlphaGo Zero 中被结合起来,从而使其更高效地训练和评估赛况。并且,AlphaGo Zero 版本只需 4 块 TPU 即可运行。

上个月,DeepMind 又推出了名为 MuZero 的「通用版」AlphaGo,在国际象棋、日本将棋围棋的精确规划任务中可以匹敌 Alpha Zero,在围棋中甚至超过了 Alpha Zero。但与前辈不同的是,MuZero 不需要提前获知规则。

围棋 AI 领域,国内研究机构和企业也在发力,其中最有代表性的要数上文中李世石提到的腾讯围棋 AI「绝艺」。「绝艺」诞生于 2016 年,实力或仅次于 AlphaGo。

「绝艺」的训练主要包括人类棋谱数据库和机器自对弈,它的算法基于策略网络与价值网络两大核心,并创新性地大幅提升了价值网络的精度,使其大局观表现更好。在 2018 腾讯世界人工智能围棋大赛中,「绝艺」在决赛中 7:0 大胜另一款围棋 AI「星阵」夺冠,半决赛五番棋和决赛七番棋不失一局,赛后「星阵」研发团队亦称赞「绝艺」已经「达到了 AlphaGo 的水准」。

虽然在围棋的算力上,人类已经难以与机器相比,但棋手们可以通过与 AI 的对弈不断提升自己的水平,甚至发展出更为先进的战术。据古力此前透露,「绝艺」已经成为中国国家围棋队训练专用 AI。

参考链接:

https://en.yna.co.kr/view/AEN20191218004052315?p=search

https://en.yna.co.kr/view/AEN20191219007151315?p=sports/index

http://www.hani.co.kr/arti/sports/baduk/921125.html

https://www.nhn.com/ko/pr/pressReleaseDetail.nhn

https://pulsenews.co.kr/view.php?year=2019&no=1014122

产业AlphaGo李世石围棋
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
黄士杰人物

DeepMind科学家,AlphaGo提出者之一

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

蒙特卡罗树搜索技术

蒙特卡洛树搜索(英语:Monte Carlo tree search;简称:MCTS)是一种用于某些决策过程的启发式搜索算法,最引人注目的是在游戏中的使用。一个主要例子是电脑围棋程序,它也用于其他棋盘游戏、即时电子游戏以及不确定性游戏。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

策略网络技术

在强化学习中,策略网络指一组相对稳定的关系,这些关系具有非等级和相互依赖的性质,将各个行为者(actor)联系起来。

决策网络技术

决策网络(也称为影响图)是有限顺序决策问题的图形表示。决策网络在信念网络的基础上加入了决策变量和效用。决策网络扩展了单阶段决策网络以允许顺序决策。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

将棋技术

将棋,日语平假名:しょうぎ 片假名:ショウギ 罗马音:syo u gi也叫本将棋,又称日本象棋,一种流行于日本的棋盘游戏。

推荐文章
暂无评论
暂无评论~