字节提出 MOMA-Force 方法,助力移动操作机器人完成复杂操作任务。





项目主页:https://visual-force-imitation.github.io/ 论文地址:https://arxiv.org/abs/2308.03624


专家示教数据中的 RGB 观测图像通过视觉编码器(visual encoder)转换为表示向量 Ze。当机器人在实时运行过程中,末端操作器的 RGB 观测图像通过相同的视觉编码器转换为表示向量 Zt。 通过从专家数据 Ze 中检索匹配出与当前实际观测表示 Zt 最相似的表示索引 i,并抽取出索引 i 对应的专家运动行为(机器人末端位置姿态)、夹爪开闭行为、力和力矩来作为当前时刻机器人的局部行为目标。 通过感知末端操作器当前所受到的接触力的大小、目标力的大小以及目标末端位姿,通过导纳全身控制(Admittance Whole Body Control)生成机械臂关节和底盘轮速控制信号驱动机器人平稳、安全地跟踪目标轨迹点完成任务。

在离线阶段,MOMA-Force 利用预训练的视觉编码器(ibot)将专家轨迹中每帧的 RGB 观测图像投影到深度嵌入中。该嵌入即 RGB 视觉观测的紧凑表示。 在在线阶段,MOMA-Force 利用同样的视觉编码器将每个时间点 t 所捕获的 RGB 观测图像也进行了编码,并通过计算与专家数据编码的相似度找出最相似的那一帧观测,这帧观测所对应的机器人在三维空间中末端位姿、夹爪的状态、六维力传感数据、任务完成状态等被匹配成为机器人当前的目标行为。












