本文是阿里巴巴达摩院视觉实验室潘攀博士团队在半监督视频目标分割领域的最新研究成果,已被 CVPR2021 接收。目前以 Space Time Memory Network(STM)为代表的 memory-based 算法在性能上有着巨大的优势,但仍然在部分场景中存在较大问题。本文分析了 memory-based 算法的局限性,提出建立位置和目标的一致性来作为改进方法,在 DAVIS、Youtube-VOS 等数据集上取得了 SOTA 结果。该成果同时获得了 DAVIS 2020 半监督视频目标分割比赛的冠军。
一、位置一致性。目标物体在视频帧间的运动是遵循一定轨迹的,如果在某一帧的一些位置出现和目标物体相似的同类物体,如果其位置不合理,那么该物体是目标物体的可能性就会降低,不应该被分割。
二、目标一致性。视频目标分割本质上也可以理解为是一个像素级别的物体跟踪。虽然分割是像素级的任务,但 VOS 的处理对象是物体(object),需要有一个类似图像实例分割中对于物体级别的约束。显然那些错误的碎块分割结果是不满足一个目标物体整体的概念的。
一、该研究不仅希望特征图的匹配和语义信息相关,而且希望能同时考虑位置信息,因此加入了 Transformer 中常用的位置编码作为位置信息的补充;
二、研究人员在匹配计算时,采取在 Query 图上做 Softmax,并希望用上一帧的信息学习当前帧的特征响应,这一点和 ECCV20 的 KMN 的做法有些类似,但目的不同;
三、该研究会利用上一帧的 mask 结果对特征匹配结果做约束,并取 TopK 的结果做计算,以消除背景区域的匹配影响。
第一阶段,静态图预训练。这和 STM 中的预训练一致,即利用图像分割数据集做数据增强的方式构造出训练样本。
第二阶段,视频分割数据训练,不约束时序。在视频序列中采帧,打乱顺序作为训练样本。研究人员利用这一步骤来增强模型对各种相似区域特征的召回能力。
第三阶段,按时序顺序模拟训练。因为最终的模型推断是按时序逐帧计算的,这样的方法能减少训练和测试之间的差异。同时在这一阶段的样本构造会更加符合 PGM 对于位置信息的学习。