德扑人机大战收官,Libratus 击败世界顶尖扑克选手

当地时间 1 月 30 日,在宾夕法尼亚州匹兹堡的 Rivers 赌场,卡耐基梅隆大学(CMU)开发的 Libratus 人工智能系统击败人类顶级职业玩家。据官网介绍,此次比赛共持续 20 天,由 4 名人类职业玩家 Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou 对战人工智能程序 Libratus,在为期 20 天的赛程里面对玩 12 万手,争夺 20 万美元的奖金 。


如果你打算开始在网上玩扑克,可要三思了。在无限德扑比赛中(一对一、无限制投注的规则),人工智能击败世界最强的人类德州扑克玩家,这是人工智能历史上又一里程碑时刻。


比赛过程中,人类选手整体上从未领先过。进入比赛最后一天时,Libratus 赢得156 万筹码。人类选手要挽回劣势,只有不到 5,000 手的机会。Jason Les 说,最后的感觉就是,自己所能做的就是输。这太打击士气了。


dt.common.streams.StreamServer.jpg

与 Libratus对抗中的德扑专业选手 Jason Les


1979 年,人类首次在西洋双陆棋游戏(backgammon)中败给机器。1997 年,Gary Kasparov 输给 IBM 的深蓝。当时他评论说,可以感觉到对手是种新的智能形式。人类输给机器的其他游戏包括:西洋棋、黑白棋、拼字游戏(Scrabble),甚至是 Jeopardy! 和经典的 Pong。


最近,人工智能打败顶尖围棋高手。2016 年 3 月,李世石 4:1 惜败 AlphaGo。2016 年圣诞节期间,匿名再度出山的 AlphaGO 陆续击败中国顶尖围棋高手,赢得毫无悬念。


Libratus 是一个玩无限德州扑克的人工智能程序,由卡耐基梅隆大学的 Tuomas Sandholm 教授与 Noam Brown 博士所开发。Libratus 的策略并非基于专业玩家的经验,所以它的玩牌方式可能有明显的不同。基于在匹兹堡超级计算机中心大约 1500 万核心小时(core hours)的计算,它使用算法分析德扑规则,建立自己的策略。在此次的比赛中,Libratus 将继续提升自己的策略。据介绍,创造 Libratus 使用的算法并非为扑克专门设计的。在面临不完全或误导信息时,该人工智能进行推论的能力有着广泛的潜在应用,包括业务谈判、医疗、网络安全、竞拍等等。


为什么是扑克?


围棋被视为棋盘游戏的珠峰,其复杂程度远甚过其他游戏。不过,论挑战性,仍然稍逊扑克。


在真实世界中,扑克是一种有关不确定性的游戏。玩家并不知道其他对手手里的牌。也不清楚以后会有什么牌。在类似围棋或国际象棋的游戏中,所有玩家都可以看到棋盘。每个玩家的信息都是完整的。这使得围棋和国际象棋要比扑克容易玩得多。


「在完整信息博弈中,计算机可以在决策树中进行分析,」CMU 教授 Tuomas Sandholm 解释道,他与自己的博士生 Noam Brown 共同开发了 Libratus 系统。在国际象棋和围棋中,人工智能可以通过预测所有未来步骤的胜率来思考自己的下一步。「然而在不完整信息博弈中,事情就变得复杂起来了,你不知道对面手握什么底牌,」Sandholm 解释道。「这意味着你不能在决策树的架构下选择下一步了。而且,你也不知道发牌员在 flop、turn 和 river 上发出的下一张牌是什么。」


dt.common.streams.StreamServer (1).jpg

比赛中的 Daniel McAulay


不完整信息博弈早已被证明是难以攻克的计算机难题。对此,CMU 的人工智能研究者们专注于信息集(Tuomas Sandholm,2010),通过同时思考未知和已知变量各种可能状态的方式来进行预测。这需要强大的计算能力。「德州扑克有 10 的 160 次方个信息集,还有 10 的 165 次方个游戏树节点,」Sandholm 说道。这意味着牌局的可能性大于宇宙中所有原子的数量(目前可观测宇宙约有 10 的 75 次方个原子)。「而且即使宇宙中的每个原子是一个宇宙,所有原子的数量也无法与牌局的可能性数量相比。」


另外,扑克也需要懂点其他玩家的心理学。他们有没有在唬牌?需不需要盖牌?你要不要也唬牌?最后,还需要下注。啥时候下注?赌啥?这些都为编写击败人类选手的扑克程序增加了难度。



为了降低结果的纯粹运气成分,比赛是复重扑克(Duplicate hands),在两张桌上(位于不同房间)使用完全相同的两副牌。这意味着即使有一个玩家手气特别壮,在重复赛制中,这也会镜像到其他玩家身上。这也解释了为什么会鏖战这么多场。从统计置信度上来说,最终Libratus击败了人类选手。


怎么赢取比赛


image (4).png


虽然 Libratus 赢得过程的细节仍然是个秘密。但是我们能在卡耐基梅陇大学之前的研究基础上,凭经验猜出个八九不离十。最有趣的或许是这次的胜利依靠更多的是 Good Old Fashioned AI(GOFAI)而不是当前时髦的深度学习过程。就像象棋比赛中的深蓝一样,Liberatus 用了很多蛮力计算来发挥到最佳水平。我们知道它动用了匹兹堡的超级计算中心来完成每一场比赛。

每个夜晚,Libratus 都会使用这台超级计算机优化它的策略。这么做是为了防止大家觉得这样对人类选手不公平,职业选手在每场比赛后晚上也聚在一起为第二天的比赛商讨表现和计划。

Libratus 还利用了博弈论。与 AlphaGo 不同,Libratus 系统不通过分析大量可能的下一步完成任务,这个 CMU 构建的新系统通过平衡风险与收益来决定自己的下一步——在纳什均衡定义中的完美游戏状态。John Nash,电影《美丽心灵》的原型,在 20 世纪 50 年代创立出这一伟大理论,它随后成为博弈论的基石,并让 Nash 在 1994 年获得了诺贝尔经济学奖。

「在存在两名玩家的零和游戏中,如果有一人不遵从纳什均衡的策略,那么两名玩家获得的收益都将受损,但我们的系统不会这样,」Sandholm 解释说。「在此类游戏中,以纳什均衡的方式思考是最安全的。遵从规律的玩家将合理地获得受益,同时在任何地方都不会被对手利用。」

Libratus 的打法让对手无论如何都想不出更好的招来对付它。


接下来会发生什么?


这只是个开始。Libratus 玩的仅仅是双人版单挑无限额德州扑克。玩家增多会大大增加游戏的复杂性。因此,在计算机还需要几年时间才能够对抗四个或更多玩家。


但这是另一个人工智能如何在狭窄领域接管人类工作的例子: 阅读乳腺 X 线摄片,抄写中文,在战斗中击败人类飞行员... 几乎每周都会出现被人工智能接管的新领域。毫无疑问,许多人都想知道终极结果是什么。计算机会最终接管人类所有的工作吗?


一个被广泛报道的牛津大学 2013 年的研究,研究中估计在接下来 20 年内美国 47% 的工作受到来自自动化取代的风险。


牛津大学的研究是有一些局限的。出人意料的是,研究的内容之一是计算机可以自动完成对将处于风险之中的工作的预测。这项研究运用机器学习和一个手工标注出 70 个工作类型的小训练集来预测出 700 多个职业中哪些将处于风险之中。


这是可以给这项研究提供帮助的地方。呼吁在群体的智慧下,看看是否可以做出更好的预测。请用几分钟的时间来完成我们的调查表。在调查表的最后,你可以指定一个慈善机构来接收我们的捐赠作为对你所花时间和精力的认可。


即使在我们调查表的结果出来之前,显而易见的是一些类如出租车司机、卡车司机、放射线技师以及现在的德州扑克专业选手都处于威胁之中。当然,技术会创造出一些其他的新工作。但是,是否能创造或者摧毁大量工作仍然是一个有意思的开放命题。


要保持领先于机器人,人类将需要在自己的专长如创造力和情感智能上动脑筋。我们同时也应该考虑如何通过机器人增强人类的能力而不是取代人类。人和机器的协作表现将比机器或者人类各自单独的表现更好。当今最优秀的国际象棋「选手」是人同计算机合力组成的。

入门人工智能人机大战文体娱乐产业CMU