谷歌 AI 新博文,使用 Panoptic-DeepLab 改善整体场景理解
现实世界中的计算机视觉应用程序(例如自动驾驶汽车和机器人技术)依赖于两个核心任务 - 实例分割和语义分割。实例分割识别图像中各个「事物」(即诸如人,动物,汽车等可数对象)的类别和范围,并为每个事物分配唯一的标识符(例如 car_1 和 car_2)。语义分割对此进行补充,该语义分割标记图像中的所有像素,包括存在的「事物」以及周围的「东西」(例如,具有相似纹理或材质的无定形区域,例如草,天空或道路)。但是,后一项任务不会区分属于同一类别的不同实例的同一类别的像素。基于实时全景分割模型的需求,谷歌 AI 提出「Panoptic-DeepLab:一个简单,快速且强大的全景分割系统」,并已被 CVPR 2020 接受。在这项工作中,谷歌扩展了常用的现代语义分割模型 DeepLab,仅使用少量其他参数执行全景分割,并增加了边际计算开销。生成的模型 Panoptic-DeepLab 可以并行且无重叠地生成语义和实例分段,从而避免其他方法采用的手动设计启发式方法的需要。此外,谷歌开发了一种计算有效的运算,该运算融合了语义和实例分割结果,从而实现了近实时的端到端全景分割预测。与基于 Mask R-CNN 的方法不同,Panoptic-DeepLab 不会生成边界框预测,并且在训练过程中仅需要三个损失函数,大大少于当前的最新方法(例如 UPSNet),后者最多可以有八个。最终,Panoptic-DeepLab 在几个学术数据集上均展示最先进的性能。