微软提出使用人手运动视频直接教机器人完成任务的新方法,这种方法使用 GPT-4V 分解视频中的动作,结合大语言模型生成对应的行为表述并作为任务列表,训练机器人只需要动动手就能完成。
![图片](https://image.jiqizhixin.com/uploads/editor/714c5221-7fdd-4488-b161-29d0e863c06b/640.png)
论文地址:https://arxiv.org/pdf/2311.12015.pdf 代码即将公开:https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
![图片](https://image.jiqizhixin.com/uploads/editor/bc0d4619-f63f-4a8e-b9e2-3b31df785e7c/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/3ac858f7-2e12-4897-8d23-4b02d3eddefd/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/95a33d34-2317-4fb5-b300-4c6c7f86b718/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/43f029ab-c8f0-4d73-90f9-54331070509c/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/a8dba581-18e8-4b47-beee-38b1aaddb3f9/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/7192ac53-7617-4bd3-bcbd-a3c77b490c6d/640.png)
在第一帧中没有任何东西被抓住,但在最后一帧中却有东西被抓住的片段表示发生了抓取。 在第一帧中有东西被握住,而在最后一帧中没有东西被握住的片段表示发生了释放。 其他片段则被归类为包含其他类型动作的片段。
![图片](https://image.jiqizhixin.com/uploads/editor/17c62355-c1df-4bef-b53d-3563a296a991/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/857f0845-979f-4ba0-9b8f-beba9e2797e7/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/7bf22ef2-bf8a-4ba0-ab84-020cd5deb6ed/640.png)
抓取任务的能力:1)接近物体的方向信息,以避免与环境发生碰撞。2)抓取类型还包含人类如何有效的执行操作。 手部移动的能力:1)手移动过程中的航点信息,以避免环境碰撞。 释放任务的能力:1)释放物体后手的撤离方向信息,以避免环境碰撞。 拾取任务的能力:1)矢量化的离开方向信息,以尽量减少物体与平面之间不必要的力。 放置任务的能力:1)朝物体靠近方向的信息,以避免环境碰撞。 旋转任务的能力:1)旋转轴的方向。2) 旋转中心的位置。3)旋转角度。 滑动任务的能力:1)滑动运动的位移。 表面移动任务的能力:1)与表面垂直的轴。
![图片](https://image.jiqizhixin.com/uploads/editor/fbd99ccd-c74b-46c7-b6c7-cca63f96aa4b/640.png)