Bengio等人论文:通过融合长期未来学习强化学习动态模型
在基于模型的强化学习中,智能体交错于模型学习与规划之间。这两个组件之间的缠结难以分解。如果模型不能提供合理的长期预测,已执行的规划器可能会利用模型的缺陷,从而造成灾难性失败。论文《Learning Dynamics Model in Reinforcement Learning by Incorporating the Long Term Future》注重建立一个能够推理出长期未来的模型,也展示了如何使用这个模型进行有效的规划与探索。最后,作者利用变分推理中的思路建立了一个隐藏变分自回归模型。作者认为通过一个辅助任务逼迫隐藏变量携带未来信息,能够充分地改进长期预测。此外,通过在隐藏空间中做规划,可确保规划器的解决方案在模型有效的范围内。通过搜索模型不可能作出的轨迹,可设计一种探索策略。在模拟学习和基于模型的强化学习设定中,作者的方法取得了比各种任务与环境基线更快的速度。