产业资讯方案大厅机构大厅

Game StarCraft II · AlphaStar

强化学习Deepmind

产品描述

AlphaStar 系统结合了基于人群的训练、模仿学习和强化学习。据 DeepMind 称,该系统“将变压器躯干应用于单元,并结合深度 LSTM core,带指针网络的自动回归策略和中心化值 benchmark”。 AlphaStar 将基于人群的训练与模仿学习结合起来,从人类比赛重放中引导系统(星际争霸等游戏中具挑战性的探索之一)之后,在 DeepMind 设计的联盟中让代理互相竞争,从而培养出越来越强大的代理,形成该系统的环境。

所用技术

研发机构