Google Brain 和 DeepMind 新研究以期提高强化学习效率
强化学习作为一种训练形式,能促使 AI 智能体 通过奖励或惩罚来完成目标,从而使机器人技术,语音合成等实现发展突破。近日,来自 Google Brain(Google 的 AI 研究部门之一)和来自 DeepMind 的研究团队 - 为执行 RL 的更高效方法提供了原型。在论文中,研究人员提出了自适应行为策略共享(ABPS),一种允许共享从 AI 智能体池中自适应选择的经验的算法以及一种可同时学习的框架—通用价值函数近似器(UVFA)。研究团队声称 ABPS 在几款 Atari 游戏中都表现出色,将顶级智能体的差异减少了 25%。至于 UVFA,它在许多相同游戏的「艰苦探索」中使基础智能体的性能翻了一番,同时在其余游戏中保持了高分;它是第一个无需人工演示或手工制作的功能即可在 Pitfall 中获得高分的算法。(VentureBeat)