Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

字节跳动-智能创作团队专栏

AAAI 2022 | 在图像级弱监督语义分割这项CV难题上,字节跳动做到了性能显著提升

论文提出了一种面向图像级标签的弱监督语义分割的激活值调制和重校准方案。该方法利用注意力调制模块挖掘面向分割任务的目标区域,通过补偿分支产生的CAM图校准基准的响应图,得到图像的伪标签,该方法在PASCAL VOC2012数据集上获得了SOTA性能。

图像级弱监督语义分割(WSSS)是一项基本但极具挑战性的计算机视觉任务,该任务有助于促进场景理解和自动驾驶领域的发展。现有的技术大多采用基于分类的类激活图(CAM)作为初始的伪标签,这些伪标签往往集中在有判别性的图像区域,缺乏针对于分割任务的定制化特征。 

为了解决上述问题,字节跳动 - 智能创作团队提出了一种即插即用的激活值调制和重校准(Activation Modulation and Recalibration 简称 AMR)模块来生成面向分割任务的 CAM,大量的实验表明,AMR 不仅在 PASCAL VOC 2012 数据集上获得最先进的性能。实验表明,AMR 是即插即用的,可以作为其他先进方法的子模块来提高性能。论文已入选机器学习顶级论文 AAAI2022,相关代码即将开源。

图片

  • 论文链接:https://arxiv.org/abs/2112.08996

  • GitHub 链接:https://github.com/jieqin-ai/AMR

引言

论文提出了一种新颖的激活调制和重校准(AMR)方案,该方案利用聚光灯分支和补偿分支获得加权 CAM,从而提供重校准的监督信号。注意力调制模块(AMM)按照通道 - 空间的顺序重新学习特征重要性的分布,这有助于显式地建模通道相关性和空间编码,以自适应地调制面向分割任务的激活响应。此外,研究者还针对双分支引入了一种交叉伪监督机制,它可以被视为一种语义相似的正则化机制来相互细化两个分支。实验结果表明,该方法可以通过学习大量粗粒度的标注获得良好的分割结果,这对实际应用非常有益。

图片

方法

图片

1、激活调制和重新校准方案 AMR

AMR 是由一个聚光灯分支和一个补偿分支组成的互补的双分支网络结构。具体来说,聚光灯分支用于生成基础的判别性强区域的 CAM,补偿分支用于生成面向分割任务的 CAM,为聚光灯的 CAM 提供互补的监督信号。补偿分支能够挖掘重要却容易被聚光灯分支忽视的区域,生成的补偿 CAM 通过重新校准聚光灯 CAM 来生成最终的加权 CAM:

图片

2、注意力调制模块 AMM

论文提出了注意调制模块(AMM)从通道 - 空间顺序的角度重新排序特征重要性的分布,这有助于显式地建模通道间的相互依赖性和空间编码,以自适应地调节面向分割的激活响应值。AMM 包括通道注意调制和空间注意调制。研究者首先将输入到通道 AMM,通过平均池化和卷积层显式地建模通道的相互依赖性。为了进一步在空间维度上建模内部空间的关系,研究者还引入了一个空间 AMM 来级联通道 AMM。研究者利用高斯调制函数来增强次要特征并抑制最敏感和最不敏感的特征,该函数强调通过次重要的区域来直接提取容易忽略的区域,这对于分割任务至关重要。

图片

图片

3、交叉伪监督损失 CPS

为了充分利用其他分支提供的互补 CAM,研究者在聚光灯 CAM 和补偿 CAM 之间增加一个交叉伪监督损失函数,起到语义相似性正则的作用:

图片

交叉伪监督损失不仅正则化了补偿分支,还将判别性区域和容易忽略的区域彼此拉近。因此可以获得两个互补区域来重新校准初始 CAM。综上所述,AMR 采用最终下述损失函数进行优化:

图片

实验

在 PASCAL VOC2012 数据集上,一方面,AMR 超过了当前图像级弱监督方法,取得了最佳的分割性能。另一方面,AMR 甚至比一些具有更细粒度监督(如显著性监督)的算法获得更好的效果。

图片

可视化结果如下图所示,从结果可以看出两个互补的分支能够关注到不同的响应区域,最终的加权结果能挖掘出更多属于目标对象的区域,从而获得更好的分割性能。

图片

理论激活值调制和重校准方案弱监督语义分割面向图像级标签
1
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

推荐文章
暂无评论
暂无评论~