产业资讯方案大厅机构大厅

AlphaStar

神经网络Deepmind

产品描述

游戏竞技。

模型设计: AlphaStar 是一个把游戏看作长序列建模学习任务的强化学习智能体,它的模型设计也就以长序列建模为能力为核心。模型从游戏接口接收的数据是单位列表和这些单位的属性,经过神经网络计算后输出在游戏中执行的指令。这个神经网络的基础是 Transformer 网络,并且结合了一个深度 LSTM 网络核心、一个带有指针网络的自动回归策略头,以及一个中心化的评分基准。这样的网络架构是 DeepMind 对复杂序列建模任务的最新思考结果,他们也相信这样的先进模型可以在其他需要长序列建模、有很大行动空间的机器学习任务(比如机器翻译、语言建模和视觉表示)中同样发挥出优秀的表现。 训练策略: AlphaStar 的初始训练策略与早期的 AlphaGo 相同,DeepMind 的研究人员首先用人类比赛的比赛 replay 对模型进行监督学习训练,以模仿学习的思路让模型快速学习到高水平玩家们在星际争霸天梯中使用的基础策略和微操。 之后是强化学习的自我对弈、继续提升水准的阶段。AlphaStar 在人类数据上初始训练后,继续进行多轮 AlphaStar league 中的自我对战,而每轮都会在之前的数个比较强的版本基础上进行分叉;分叉前的版本会被固定参数保留下来,一直参与后续的多轮自我对战;不同的版本也可能会被人工安排不同的对战策略和学习目标。这样的做法就在不断提升网络水平、提高对战难度的同时也保留了足够的多样性。根据每轮自我对战的结果,每个的网络参数都会进行更新;这种做法来自于群体强化学习的思想,保证了持续稳定的表现提升,而且很新的版本也不会「忘记」如何击败很早的版本。群体自我对弈的过程中可以产生许多不同的策略。有一些策略仅仅是对早期策略的细微完善,也有一些策略会含有全新的建造顺序、单位组合、微操模式;能够稳定击败早期策略的策略也开始出现。随着总训练时间越来越长,智能体平均使用的单位数目也越来越多。许多轮自我对战结束后,研究人员们会以 AlphaStar league 中的纳什分布采样出一个版本来,作为训练结束后最终得到的智能体。这样的做法可以得到已经发现的多种策略的综合最优解。

所用技术

研发机构