来自清华大学交叉信息研究院的研究者提出了「ViLa」(全称 Robotic Vision-Language Planning)算法,其能在非常复杂的环境中控制机器人,为机器人提供任务规划。
![](https://image.jiqizhixin.com/uploads/editor/533d3b29-b3e8-461b-a568-066fb605c0a7/1702361548299.png)
论文地址:https://arxiv.org/pdf/2311.17842.pdf 论文主页:https://robot-vila.github.io/ 论文视频:https://www.youtube.com/watch?v=t8pPZ46xtuc
![](https://image.jiqizhixin.com/uploads/editor/8b4855d5-5411-450e-bf19-4ebaa5df2cd8/1702362202628.png)
![](https://image.jiqizhixin.com/uploads/editor/04c922ea-aca6-464d-93de-e27602a32e5f/1702362266824.png)
ViLa 可以将真实图片作为目标。 ViLa 可以将抽象图片(如小孩的画,草稿等)作为目标。 ViLa 可以将语言和图像的混合形式作为目标。 ViLa 可以发现图片中手指指着的位置,并将其作为实际任务中的目标位置。
![](https://image.jiqizhixin.com/uploads/editor/eecb0e2c-9c31-4931-ab77-db899341e4ec/1702362321131.png)
在 “堆木块” 任务中,ViLa 检测出了执行基本技能时的失败,于是重新执行了一遍基本技能。 在 “放薯片” 任务中,ViLa 意识到了执行过程中人的干扰。 在 “找猫粮” 任务中,ViLa 可以不断地打开抽屉 / 柜子来寻找猫粮,直到找到。 此外,ViLa 可以完成需要人机交互的任务,等待人握住可乐罐之后才松开夹爪。