今天,谷歌公开了两个机器人研究数据集——Grasping 和 Push。其中 Grasping 是一个 650k 大小的抓取尝试数据集(相关论文:《Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection》),Push 是一个 59k 大小的推动运动数据集(相关论文:《Unsupervised Learning for Physical Interaction through Video Prediction》另有加州大学伯克利分校和 OpenAI 的研究者参与)。
这两个数据集中包含了机器臂、夹具和目标的 RGB-D 视角数据、制动和位置参数,发布链接:https://sites.google.com/site/brainrobotdata/home
Grasping:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/example/example.proto
Push:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/example/feature.proto
下面机器之心对这两篇相关的论文进行了简单介绍:
使用深度学习和大规模数据收集学习用于机器人抓取的手眼协调(Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection)
摘要:我们描述了一种用于从单眼图像(monocular images)中学习机器人抓取的手眼协调(hand-eye coordination)的方法。为了学习用于抓取的手眼协调,我们训练了一个大型卷积神经网络来预测抓取器(gripper)在任务空间中的运动能导致正确抓取的概率,该网络只需要使用单眼图像,且不受相机校正或当前机器人姿态的影响。这需要该网络能够观察场景中抓取器与目标之间的空间关系,从而学习手眼协调。然后我们使用该网络来实时控制抓取器的伺服电机以便实现成功的抓取。为了训练我们的网络,我们收集了过去两个月超过 800,000 次抓取尝试的记录,期间的任何时间都使用到了 6 到 14 个机械手,而摄像机位置和硬件则有所差异。我们的实验评估表明我们的方法可以实现有效的实时控制、可以成功抓取新物体、以及通过连续伺服控制来校正错误。
通过视频预测使用无监督学习进行物理交互(Unsupervised Learning for Physical Interaction through Video Prediction)
摘要:一个代理学习与世界交互的核心挑战之一是预测其行动会怎样影响其环境中的物体。许多现有的学习物理交互(physical interaction)的动力学的方法需要有标注的物体信息。但是,为了将真实世界交互学习扩展到各种不同的场景和物体,获取有标注的数据就会变得越来越不切实际。为了学习没有标注的物理物体的运动,我们开发了一种调节过运动的视频预测模型(action-conditioned video prediction model),该模型可以通过之前的帧预测像素运动的分布,从而对像素运动建模。因为我们的模型明确预测了运动,所以它和物体的外观是相对无关的,这让它可以将经验归纳到之前从未见过的物体上。为了探索用于真实世界交互代理的视频预测,我们还引入了一个涉及到推运动的 50,000 次机器人交互的数据集,其中包括在全新物体上的测试集。在这个数据集中,根据机器人的未来动作调节过的准确视频预测相当于基于不同的动作路线学习不同未来的「视觉想象(visual imagination)」。我们的实验表明:相比于之前的方法,我们提出的方法不仅能得到更准确的视频预测,还能更准确地预测物体运动。