行业内参

AI Daily

AI Daily 快讯 · 2019/02/01

Uber AI实验室提出强化学习新算法GO-Explore

机器之心，Uber AI Lab于近日发表新论文，在机器学习社区引起广泛讨论。论文提到，强化学习的一大挑战是智能探索，尤其是当奖励稀疏或具有欺骗性时。当前，两个Atari游戏 - Montezuma’s Revenge 和 Pitfall - 正作为hardexploration领域的基准。然而在这两种游戏中，当前的强化算法仍然表现不佳，即使是那些具有内在动机的算法是鼓励探索和提高hardexploration领域性能的主要方法。为了解决这个不足，我们引入了一种新算法，名为 GO-Explore 。它利用了以下原则：（1）记住以前曾被访问过的状态；（2）首先回到有希望的状态（没有探索），然后从中探索；（3）利用任何可行的方式解决模拟环境，然后通过模拟学习强化。研究发现，合并这些原则的效果在hardexploration问题上产生了显着的性能改进。

AM 2:49arxiv.org

1

登录后评论

暂无评论~

登录

文章库