伯克利人工智能实验室更博:D4RL 基准测试
为了开发用于离线强化学习的有效算法,我们需要易于使用并可以准确衡量此问题进度的广泛使用的基准。在自动驾驶中使用现实世界的数据可以很好地指示进度,但是算法的评估却是一个挑战。大多数研究实验室没有资源将其算法部署在实际车辆上,无法测试其方法是否真正有效。为了填补现实但不可行的现实任务与某种程度缺乏但易于使用的模拟任务之间的差距,来自伯克利人工智能实验室的研究团队最近针对离线 RL 引入了 D4RL 基准测试(用于深度数据驱动的强化学习的数据集)。D4RL 的目标很简单:研究团队提出旨在解决离线 RL 问题的维度的任务,这可能会使现实世界中的应用变得困难,同时将整个基准保持在模拟域中,从而使世界各地的任何研究人员都能有效地评估其方法 。总体而言,D4RL 基准测试涵盖了 7 个在质量上截然不同的领域的 40 多项任务,涵盖了机器人操纵,导航和自动驾驶等应用领域。