DeepMind 实现不依靠地图的情况下分辨谷歌街景
DeepMind近日发表论文,称他们的智能体能够分辨谷歌街景,在不依靠地图的情况下找到目标点。以下是论文摘要:导航和理解现实世界仍然是机器学习的关键挑战,并在语言基础,规划,导航和计算机视觉等领域激发了大量的研究成果。我们提出了一项指令跟踪任务,该任务需要以上所有内容,并将模拟环境的实用性与模糊,嘈杂的现实世界数据的挑战相结合。 StreetNav构建于Google街景之上,提供代表真实场所的视觉准确环境。智能体会获得驾驶指令,他们必须学习解释这些指令才能在此环境中成功导航。由于配备驾驶指令的人可以在以前看不见的城市轻松导航,我们设置了一个高标准,并测试我们训练有素的智能体的类似认知能力。尽管深度强化学习(RL)方法通常仅在紧跟训练分布的数据上进行评估,但我们的数据集扩展到多个城市并且具有干净的训练/测试分离。这允许彻底测试泛化能力。本文介绍了StreetNav环境和任务,一组建立强基线的新模型,以及任务和训练有素的代理的分析。