伯克利&斯坦福&FAIR 联合发表论文:Mid-level 视觉表示提高学习活动任务的泛化和样本效率
今天加州伯克利大学、FAIR、和斯坦福大学的研究员联合发表了一篇论文:Mid-Level Visual Representations Improve Generalization and Sample Efficiency for Learning Active Tasks。以下是论文摘要:计算机视觉的最终承诺之一是帮助机器人执行活动任务,例如提供包裹或做家务。然而,解决「视觉」的传统方法是定义一组离线识别问题(例如,对象检测)并首先解决这些问题。这种方法面临着最近深层强化学习框架的挑战,该框架使用图像作为输入从头开始学习活动任务。这提出了一系列基本问题:如果可以从头开始学习一切,计算机视觉的作用是什么?中间视觉任务实际上可以用于执行任意下游活动任务吗?我们表明,正确使用中级感知比从头开始训练具有明显的优势。我们将感知模块实现为一组中级可视化表示,并证明学习具有中级特征的活动任务比从头学习更具样本效率,并且能够在从初始方法失败的情况下进行概括。但是,我们表明,实现这些收益需要仔细选择每个下游任务的特定中级功能。最后,我们基于我们的研究结果提出了一个简单而有效的感知模块,可以作为活动框架的相当通用的感知模块。