谷歌推出最新研究:视频模型中的模拟策略学习
近日,在「基于模型的 Atari 强化学习」论文中,谷歌介绍了模拟策略学习(SimPLe)算法,这是一个 MBRL 框架,用于培训 Atari 游戏玩法的智能体,这种方法比当前最先进的技术更有效,并且在仅使用~100K 与游戏环境的交互(相当于一个人大约两小时的实时游戏)次数的情况下取得具有竞争力的结果。此外,谷歌已将开源代码作为 tensor2tensor 开源库的一部分。该版本包含一个预训练的世界模型,可以使用简单的命令行运行,并且可以使用类似 Atari 的界面播放。