Uber AI实验室提出强化学习新算法GO-Explore
机器之心,Uber AI Lab于近日发表新论文,在机器学习社区引起广泛讨论。论文提到,强化学习的一大挑战是智能探索,尤其是当奖励稀疏或具有欺骗性时。当前,两个Atari游戏 - Montezuma’s Revenge 和 Pitfall - 正作为hardexploration领域的基准。然而在这两种游戏中,当前的强化算法仍然表现不佳,即使是那些具有内在动机的算法是鼓励探索和提高hardexploration领域性能的主要方法。为了解决这个不足,我们引入了一种新算法,名为 GO-Explore 。它利用了以下原则:(1)记住以前曾被访问过的状态;(2)首先回到有希望的状态(没有探索),然后从中探索;(3)利用任何可行的方式解决模拟环境,然后通过模拟学习强化。研究发现,合并这些原则的效果在hardexploration问题上产生了显着的性能改进。