高静宜撰文

国内首家决策智能公司浮出水面,启元世界给你一个会配合走位的AI队友

2016 年 3 月,AlphaGo 横空出世,以 4:1 的比分打败李世石。一年后,升级版 AlphaGo 卷土重来,以 3:0 的比分完胜中国棋手柯洁,再次刷新了战绩。

 在围棋领域打遍天下无敌手之后,AlphaGo 背后的谷歌 AI 子公司 DeepMind 并没有停止在竞技游戏领域探索的脚步,开始把目光瞄向了新的任务——《星际争霸 II》。

 这是一款经典的即时战略游戏,由于其游戏的深度、平衡性及近乎完美的设计、瞬息万变的局势变化,近年来一直被认为是人工智能在解决围棋问题后的下一个终极挑战。DeepMind 团队的核心成员如 AlphaGo 的幕后推手黄士杰、AlphaGo 项目主要负责人 David Silver,以及西班牙《星际争霸 II》世界冠军、DeepMind 研究科学家 Oriol Vinyals 等均把精力投入于此。

 而在国内,一家同样基于《星际争霸 II》探索 AI 潜力创业公司浮出水面。

 游戏里遇上 AI,谁输谁赢?

在第 42 届 ACM-ICPC 国际大学生程序设计竞赛全球总决赛上,以认知决策智能技术为核心的创业公司启元世界首次亮相,并举办了基于《星际争霸 II》的 AI 人机协作挑战赛,以推动人机相互理解、相互协作等决策智能技术的研究。

 具体来说,这场 AI 人机协作挑战赛有两项赛题。

两项赛题:Human+AI VS AI+AI,以及 Human VS AI

第一项挑战为水晶采集赛,是人机协作与机机协作的比拼。

 在规定时间内,分为 A、B 两队,每队两个单位分别收集地图上的蓝色水晶。A 队为 1 个玩家加上 1 个具备协作能力的 AI 智能体;B 队为两个具备协作能力的 AI 智能体。比赛的关键在于 A 队中的人和 AI 能否实时观察、理解对方的意图与行动,并能采取有效的行为进行合理分工,采集到更多的水晶。

         

 据统计,全天比赛一共收集 209 场有效数据,其中 A 队获胜 102 局,胜率 48.8%,B 队获胜 83 局,胜率 39.7%,平局 24 局,平手率 11.5%。

 在现场,机器之能也上手体验了与 AI 智能体配合采集水晶的过程。可以发现,友方的 AI 智能体不仅会配合人类玩家的走位、分头采集,还能对敌方 AI 展开干扰和阻挡。

 启元世界创始人兼 CEO 袁泉告诉机器之能,相较于机机协作,人机协作的重点在于 AI 要实时地感知、理解人的意图,「这比机器理解机器更难,缺少一个实时的信道是个重要因素。」在此基础上,AI 还要针对博弈的对手进行建模,才能做出最优的决策方案。现场引来各国选手驻足围观、尝试,两位 ACM 决赛同学一直在揣摩与 AI 协作的最优策略

第二项挑战为 Reaper 争霸赛,是人机对抗。

人类玩家与 AI 分别操控 10 个星际争霸 II 中独具特色一类角色——Reaper,在广袤的场地上进行对抗博弈。Reaper 可发射一般子弹,也可以扔出手雷。选手需要根据不同的游戏场景,采取灵活的协作博弈策略,操控己方的单位对 AI 一方进行攻击,取得比赛的胜利。

       

 在机器之能观察现场工作人员与 AI 一方展开 PK 的大约十分钟里,人类玩家没有一次能够战胜机器。相较于人类玩家,AI 看起来似乎更懂得「审时度势」,能够借助场地地形等最大程度发挥自己的攻势。

 而当 AI 具备了超越人类的个体能力之后,如何更好地区理解 AI、理解 AI 和人之间的联系,从而让 AI 帮助到人类自身就成为了一个新的问题。

 对此,启元世界给出的答案是决策智能,这场人机协作挑战赛就是公司在这个方向上的第一次尝试。

 以世界级难题决策智能为核心

袁泉告诉机器之能,之所以选择决策智能这个方向,与公司创始团队的基因密不可分。

 在创业之前,袁泉曾担任阿里认知计算实验室负责人、资深总监,是手机淘宝天猫推荐算法团队缔造者。在过去的十余年里,袁泉一直从事互联网中重要的辅助决策系统——个性化推荐算法的研究,并在淘宝天猫的上亿用户场景中,进行了一系列成功的落地应用,包括在 2015、16 年双 11 中上线的基于在线学习的实时推荐。袁泉表示,这应该是辅助决策智能在国内乃至世界范围内最大规模的一次应用。

 公司的联合创始人兼 CTO 龙海涛曾在阿里巴巴负责搜索广告业务的架构设计,主导了其核心的离线系统、在线引擎和索引内核的升级换代,并完成了对阿里妈妈搜索广告的重构,为架构下一代智能决策系统积累了经验。

 2018 年 8 月,二人联合创立了启元世界,同年,公司获得来自高榕资本的数千万元人民币天使轮融资。

 「过去,我们在经典的互联网电商场景中积累了较多的经验。在搜索、广告、推荐等背景下,大数据和机器学习技术的结合就能产生很好的效果,但智能的体现还不够充分。」袁泉说道,「我们希望通过新一代的决策智能技术,让具体的应用场景可以有一个大幅度、成倍的商业价值的提升。」

 袁泉表示,任何需要精准营销、信用评级的场景都是决策智能的应用场景。除了游戏领域,还包括工业机器人的生产与操控、自动化农业、智能交通、物联网等各个领域。

 在过去的几年里,人工智能的发展速度肉眼可见。伴随着计算机视觉、语音识别等技术的迭代优化,从感知智能到认知智能技术的发展都有着显著的飞跃,而这些都是决策智能发展的先决条件。

 不过,目前决策智能仍是一个世界级的难题。

 首先,决策是主观与客观、理智与情感相融合的过程,目前计算机擅于处理的是理性可计算部分,因此需要更好的建模和逼近路径;

 其次,影响决策的因素非常多,人是在多源信息密布的环境中进行决策,需要有效甄别和提取有效信息,同时对未知信息进行推理和假设。

 另外,各个行业运用决策智能的场景往往是要求实时决策,甚至是高并发决策,如互联网中通常需要在毫秒级返回给用户的推荐结果,因此对系统架构上挑战也很大。

 《星际争霸II》与深度强化学习

 在启元世界看来,《星际争霸 II》是训练和验证决策智能技术的绝佳平台。

 「游戏领域有自己的特点,它是一个非常干净、纯粹的研究平台。」袁泉解释道,由于游戏平台的链条短,迭代快,算法的有效性可以在不受真实环境干扰的情况下训练、展现出来。

 而《星际争霸 II》这款游戏本身存在的一些特质也使它成为了各家公司展开 AI 研究的不二选择,例如游戏不能完全看到所有地图,需要在不确定的情况下进行智能决策;实时对抗性对算法的性能、效率、工程上都存在很大考验等;需要长期的规划和时间空间上的推理等。

 事实上,早在 2010 年就有研究人员针对这款游戏中的 AI 展开研究,但是当时主要还是基于预编程的规则,算法还无法战胜真正的人类。

 2016 年 11 月,DeepMind 与暴雪娱乐达成协议,将基于《星际争霸 II》开发一个界面以便让 AI 研究人员将机器学习软件与游戏对接。

 此外,Facebook 和微软的研究人员也曾发表相关论文,展示了 AI 在这款游戏上的研究成果。

 今年 1 月,DeepMind 研究科学家 Oriol Vinyals 在演讲中透露了公司在这款游戏上的最新进展:尽管 AI 还不能完成整局游戏,但可以实现相对简单的操作,但在建造建筑、收集资源等任务上和专业的玩家还有一段距离。

 袁泉告诉机器之能表示,在实现这一切的背后,最关键的技术就是深度强化学习。「深度强化学习能够让 AI 具备快速迭代学习的能力,包括协作中合作和竞争下的博弈。」

 简单理解起来,深度强化学习就是深度学习与强化学习的结合。深度学习给出了表征问题和解决问题的方式,强化学习定义了优化的目标,因此二者的结合能够解决很多复杂的问题,接近所谓的通用智能。

 目前,世界范围内深度强化学习的效果性能主要集中在游戏领域。近年来,伯克利大学和 DeepMind 等在这方面也有不少进展,并试图把虚拟游戏场景中训练好的数据应用到实体场景中去。

 不过,由于这项技术的发展仍处于早期阶段,成功案例较少,因此业内出现过「深度强化学习劝退」的声音。

 对此,袁泉表示:「现在深度强化学习所处的阶段就像 2012 年之于深度学习,技术的发展路径是一步步前进的。从我们自己的实践经验来看,这是一个很重要的方向。」

 而在眼下,《星际争霸 II》就是一个蕴含了丰富通用人工智能及决策智能的研究场景,袁泉告诉机器之能,希望能有更多感兴趣的朋友加入启元世界一起进行研究。

 「十多年前,我们上学的时候,星际争霸是最 Popular 的游戏。在这个游戏上研究 AI 可以让我们把个人爱好和工作结合起来。」袁泉笑着说道。

产业启元世界决策智能袁泉