「冷扑大师」强势战赢人类牌手,博弈论落地商业应用有几分可能

昨日,备受瞩目的“冷扑大师V.S.中国龙之队—人机扑克巅峰表演赛”,经过五天激烈博弈的赛事完成最后一局,最终冷扑大师以792,327总记分牌的战绩获胜,此次人机扑克巅峰表演赛的200万奖励荣归冷扑大师。

 

无标题.png


不完美信息AI技术获得验证

 

众所周知,此次冷扑大师背后的AI技术不是AlphaGo中的深度学习,而是博弈论,更准确说是纳什平衡的理论。


纳什均衡,又称为非合作博弈均衡,是博弈论的一个重要术语。是一种策略组合,使得同一时间内每个参与人的策略是对其他参与人策略的最优反应。

“冷扑大师之父”Tuomas Sandholm教授比赛结束接受机器之心等媒体采访时提到,“纳什平衡告诉我,这里有一个战略是不可以被打败的,它是完美战略。对手用什么样的战略都是不可胜的,我们就开始计算这个战略,问题是很多的游戏空间太大了,比如德州扑克一对一,它的原子比宇宙还要多,我们肯定需要找一些办法去模拟接近于它,这也是AI进来的地方,AI给我们一个战略模拟这个平衡。其中一个好处就是,这个算法不仅限于德州,它可以运用在任何信息不平衡的游戏之间,德扑刚好是一个非常好的标杆。”

1.png

AI处理人机对弈的信息模式可大致分为完美信息、不完美信息两类。人机棋牌对弈中的围棋和扑克正是这两类的代表,就在冷扑大师刚刚战赢人类的时候,升级版AlphaGo 来华向柯洁发出挑战,但结果一定是毫无悬念。

此次人机大战的发起人李开复说到,“当信息不完美的时候,有对方看不到的底牌甚至有诈胡机会的时候,感到这是人做的事情,那机器能做吗?机器不仅能做,还在比赛中还赢了人类。”

李开复表示,德扑打败人类是AI发展中的一个里程碑,是不完美信息AI技术获得验证,也让人类看到在游戏领域,人机对战是没有任何悬念的了。

 

“以我之不败战人类之可胜”

 

人族代表中国龙之队队长杜悦,在比赛结束后以实战经验分析冷扑大师策略的特点。


基于纳什均衡最优级的,机器人总是玩的是纳什均衡的一方策略,这个策略就是不败,对它长远来讲只可能是打平不可能打输,这是理论上最精确的解读。

2.png

而对人类选手很难保证一直打最优级,任何其他的策略对冷扑大师的策略而言,就是做次优,它的期望值就是负,表现在打法上的话,冷扑大师的特点就是在它该赢的地方一定想办法多赢点,在它该输的地方会尽量。人类选手赢的时候是小赢,输的时候是多输。

杜悦强调,冷扑大师的策略就是,“以我之不败战人类之可胜。”

杜悦作为资深德扑玩家,试图纠正人们的常规想法。他说,以前主流社会对德州扑克的理解,就觉得好像是一个赌博游戏,赌性非常强。他认为,通过这次人机比赛,当一个高手技术水平非常高的时候,采取机制把运气成分尽可能的去掉,长此以往德州扑克的高手对于德州扑克的菜鸟而言还是有很大的优势,德扑在本质上还是技术含量非常高的竞技运动。

而此次龙之队虽然惜败,但却是打出了非常高的水平。

 

冷扑大师获胜,商业价值几何

 

冷扑大师目前的对战形式一对一,而现实生活中德扑是多人游戏,多人游戏在计算上的复杂程度是目前冷扑大师所无法胜任的。这也让很多人思考,机器战胜了人类,但是在现实生活中能够有哪些落地应用?


冷扑大师背后的人工智能技术如何发挥其商业价值,李开复认为有三大条件要满足:海量的数据、数据有标注、单一领域。例如在金融领域,金融是虚拟的、由人创造的,数据量庞大且天生带有标注,譬如股票的涨停、小额贷款是否还钱、买了保险后是否出事都是一种标注,这使得AI在放贷、银行、投资、保险方面具有潜力。

李开复曾说,“如果AlphaGo 是考验机器的智商,那冷扑大师则考验的是机器的情商。”这次人机比赛,让大家看到机器已经开始具备EQ、诈骗、诈胡,这些过去AI不见得具备的能力,显然是一个好的开始。

李开复举例子,你买房子,卖家卖700万,人家出800万,该从600万排还是一分都不加了,还是说赠一个精装修,谈判的过程与冷扑大师是一样的,其他的商业洽谈,甚至推出外交的各种博弈也都类似,他判断未来的可扩张性很乐观。

不可否认,在实际应用层面,人工智能仍有很长的路要走。中国的人工智能技术也要不断地前进发展。对教育有着很强使命感的李开复,希望能够通过创新工场的桥梁,能够把外国最前沿的人才和技术带回中国来,尽快让AI达到一个井喷的状态。

入门产业人机大战文体娱乐创新工场