视觉语言导航

视觉语言导航(VLN)是指在真实的3D环境中引导智能体执行自然语言指令的任务。