AAAI 2020线上分享 | 腾讯AI Lab:用深度强化学习在王者荣耀虚拟环境中构建「绝悟」AI

在机器之心最新的一期 AAAI 2020 线上分享中,我们邀请到了腾讯 AI Lab AI+游戏领域高级研究员叶德珩博士为大家介绍他们王者荣耀 AI 智能体研究。

游戏,一直是人工智能技术研究与落地的重要场景之一。过去几年,DeepMind 围棋项目 AlphaGo、星际争霸 AI AlphaStar、OpenAI Dota2 项目 OpenAI Five 等游戏 AI 吸引了全球人工智能社区的关注。


而在国内,腾讯 AI Lab 也一直致力于 AI+游戏的研究。近日,基于腾讯天美工作室开发的热门 MOBA 类手游《王者荣耀》,腾讯 AI Lab 公布了一项用深度强化学习来为智能体预测游戏动作研究成果,论文《Mastering Complex Control in MOBA Games with Deep Reinforcement Learning》已被 AAAI 2020 接收。


在机器之心最新的一期 AAAI 2020 线上分享中,我们邀请到了论文一作、腾讯 AI Lab AI+游戏领域高级研究员叶德珩博士为大家介绍他们的研究成果。

个人简介:叶德珩(Deheng Ye)博士,现任腾讯 AI Lab AI+游戏领域高级研究员,主要工作方向是机器学习在 AI+游戏领域的技术研究与应用探索,涉及强化学习、模仿学习、领域数据挖掘、多智能体决策等。


叶德珩于 2016 年在新加坡南洋理工大学计算机科学系取得博士学位,期间的研究方向为软件相关知识挖掘和代码挖掘。他曾担任 IJCAI,AAAI 等学术会议的程序委员会成员。


演讲概要:多人在线战术竞技游戏(MOBA)已经成为检验前沿人工智能的动作决策和预测能力的重要平台。基于腾讯天美工作室开发的热门 MOBA 游戏《王者荣耀》,腾讯 AI Lab 正努力探索强化学习技术在复杂环境中的应用潜力。本文即是其中的一项成果,研究了使用深度强化学习来为智能体预测游戏动作的方法。


具体来说,在这篇论文中,我们研究 MOBA 1v1 游戏中 AI 智能体的复杂动作控制问题。这个问题有着比传统 1v1 游戏,例如围棋、将棋、Atari 等,更为复杂的状态和动作空间,从而使得 AI 的策略学习十分困难。我们从系统和算法的层面,提出了一个强化学习框架来研究这个问题。我们开发了一个高可扩展低耦合的强化训练系统;并提出了一系列的算法创新,包括一个 actor-critic 神经网络,控制依赖的解耦,目标注意力机制,动作空间剪枝,dual-clip PPO 等。在王者荣耀真实游戏环境中的测试显示,我们训练的 AI 智能体能在不同类型的英雄上战胜顶尖职业选手。


论文地址:https://arxiv.org/abs/1912.09729


时间:北京时间 2020 年 1 月 2 日 20:00-21:00


AAAI 2020 机器之心线上分享


2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办。不久之前,大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。


为向读者们分享更多的优质内容、促进学术交流,在 AAAI 2020 开幕之前,机器之心将选出数篇优质论文,邀请论文作者来做线上分享。整场分享包括两个部分:论文解读和互动答疑。


线上分享将在「AAAI 2020 交流群」中进行,加群方式:添加机器之心小助手(syncedai4),备注「AAAI」,邀请入群。入群后将会公布直播链接。

产业绝悟王者荣耀腾讯AI Lab
相关数据
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

推荐文章
暂无评论
暂无评论~