学习世界图(World Graph)加速分层强化学习
在很多真实世界场景中,自动智能体常常在单个复杂环境中遇到不同的任务。在论文《Learning World Graphs to Accelerate Hierarchical Reinforcement Learning》中,研究者建议在环境结构之上建立一个图抽象,从而提升这些任务的学习速度。节点是重要的兴趣点(关键状态),边缘表示这些节点之间的可行遍历。他们的方法分为两个阶段:第一阶段,他们以一种任务无关(task-agnostic)的方式共同训练隐关键状态模型和好奇心驱动的目标条件策略;第二阶段,根据已有的世界图知识,高阶Manager快速找到新任务的解决方案,并向低阶Worker说明关键状态的子目标。之后,Worker也可以利用图来轻松地遍历感兴趣的关键状态,甚至可以是长距离的遍历,并进行非本地探索。最后,研究者执行了全面的控制变量研究,以评估该方法在一系列具有挑战性迷宫任务中的效果。结果表明,就性能和效率来说,他们提出的框架较那些缺乏世界图知识的基准方法具有显著的优势。