CVPR 2020 | ADSCNet: 自纠正自适应膨胀率计数网络解读

【导读】在CVPR 2020上,商汤智慧交通产品线团队提出的自纠正自适应膨胀率计数网络,针对计数任务中点标注位置不一致和透视现象造成巨大的尺度变化的问题提出了有效的网络设计和监督方法。在监督方式方面,ADSCNet利用网络学习的结果来纠正不一致的人工标注从而更有效的训练;在网络设计方面,ADSCNet提出自适应膨胀率的卷积结构,不同位置采用不同的膨胀率来适应尺度的变化。ADSCNet在四个公开数据集上均有显著的提升。

论文名称: Adaptive Dilated Network with Self-Correction Supervision for Counting

问题和挑战

目标计数作为计算机视觉的一个重要方向。在工业界有着广泛的应用,例如交通场景下的拥堵判断,视频监视下的流量统计以及地铁中的人流分析等。近年来,使用卷积神经网络(CNN)的方法取得了显著的进展。但是,这项任务仍然具有挑战:
a. 由于密集的场景,对于目标多采用点标注的方式,这就带来标注位置不一致的问题,如下图(a)的黄点,点的位置可能在嘴上,眼睛,耳朵等。那么究竟哪里才是更有利于网络学习的位置呢?
b. 如下图(b)在监控的密集的场景下,不但在不同的场景中目标的尺度差异大,而且在同一张图中也有由于透视现象造成目标会有巨大的尺度变化。

方法介绍

针对以上提出的问题,我们提出了一个新颖的计数框架,如下图所示。它由自适应膨胀卷积网络和自校正监督组成。在这一部分,我们首先会从高斯混合模型(GMM)的角度理解传统的目标密度图,然后我们将介绍如何利用一种期望最大化(EM)的方式进行自纠正更新标签,最后将介绍自适应膨胀率卷积的网络结构和实现细节。

1. 自纠正的监督方式

动机:随着模型的训练的进行,不一致的点标注会影响网络学习的上限。通过观察发现学习一定时间以后,网络预测的密度在响应位置一致性上好于人工标注。所以我们希望通过利用网络的预测来纠正标注的位置,从而得到更一致同时更有利于网络学习的密度图标签。
方法
将高斯密度图看作一个高斯混合模型(GMM):

其中D表示高斯密度图,K表示目标个数,x表示图中的位置

这里可以用人工标注的点作为均值,固定值为方差,生成高斯混合模型的初始分布,而网络预测的密度图可以近似看作网络根据图像特征预测的一个目标分布。我们的方法就是利用网络预测来以一种类似期望值最大化(EM)的方式更新高斯混合模型从而得到适合的标签。

具体方式如下:

E 步骤:

M 步骤:

重新估计高斯混合模型参数

其中 X 表示位置矩阵随着 E 和 M 交替执行,我们会得到更一致响应的标签。在更新的过程,由于已知每个目标对于整体的分布是相同的,所以对于重新估计的权重系数 π 我们会固定为 1/K.

自纠正损失函数

提出的自纠正损失函数包含两个部分,一个部分是直接全图和纠正后密度图比较L1距离,这部分关注整图数量上的误差,第二部分为权重系数的监督,主要关注个体,保证对于整体的贡献一致

总体而言,提出的自纠正监督具有许多理想的属性。首先,它能够容忍标注偏差。动态更新目标密度图可以纠正某些标签的偏差,以帮助模型学习到一致的特征表达。其次,对于方差的变化是鲁棒的。可以根据图像特征采用迭代调整方差以适应响应区域。第三,它对象数量的变化很敏感。混合系数的波动有效地反映了漏检和误检。 

下面展示了密度图估计中的四种常见情况(抖动,方差增加和高斯核的变化)自纠正的对比。

2. 自适应膨胀率网络结构

我们从两个角度设计了自适应膨胀卷积
1) 从尺度变化方面,我们使用连续的感受野也来匹配连续的尺度变化。
2) 为了学习空间感知,不同的位置回采用不同的膨胀率来进行采样。

下图为我们的自适应膨胀卷积的过程:
步骤1:以相同特征为输入,通过标准 3×3 卷积层得到一张与原图相同大小的单通道的膨胀率图。特别地,我们添加了一个 ReLU 层来保证膨胀率图上值都为非负数。
步骤2:对特征进行自适应感受野的采样,不同位置的采样网格大小为膨胀率图对应位置的值,这个值可能会是小数,这里我们采用了双线性插值进行采样
步骤3:对采样值进行加权求和得到新的特征

我们的自适应膨胀率卷积不需要额外的尺度标签,只需要最后的密度标签就可以让网络自己学习适应不同尺度的目标。同时相比较形变卷积[1],我们的采样网格中是完全对称的,采样的特征不会有相对目标位置上的偏差,和最终目标的位置有更好的一致性,更加适合计数这种位置敏感性的任务。

实验结果

下图为可视效果的对比,可以看出,ADSCNet 相比较传统的监督预测的密度图主要有两方面的优势:1.不同目标更一致的响应强度 2.不同目标响应的位置更加一致。响应点主要集中头部的左上角轮廓处,表明了相对于人工标注的眼睛,鼻子等,头部轮廓是相对更不容易遮挡,更适合计数任务的特征点。通过下图第四列可以看到整体上大的目标需要更大感受野,一些有语义的背景目标也需要更大的感受野去区分。

同时我们也进行消融实验的对比,首先我尝试了有效的数据增加方式,加入 BN 和增大 batchsize 来确立新的 Baseline。我们这里复现了 CSRNet[2] 和 MCNN[3] 作为 Baseline 方法进行比较,如下图首先是自纠正监督的效果。自适应监督在三个 baseline上取得了一致的提升。 他们相对的 MAE 提升分别为 6.19%,8.57%,8.72%。

而自适应膨胀卷积方面,我对比了不同的固定膨胀率和多列网络组合以及形变卷积的效果。相比较固定的膨胀率,我们只增加了有限的运算,却取得了明显的提升。 

最后和当前 SOTA 的对比,ADSCNet 在四个公开数据集取得更优的表现,并有着明显的提升,表明了我们方法的有效性。

结语

在本文中,我们为计数问题提出了一种新颖的监督学习框架。它利用模型估计来迭代地纠正 GT,并提出自纠正损失函数同时监督整体的数量和个体的分布。同时这种方法可以应用到所有基于 CNN 的方法中。另一方面,我们提出了自适应膨胀卷积,它通过每个位置的动态地学习不同的膨胀率以适应目标巨大的尺度变化。在四个数据集上进行的实验表明,它可以显著提升计数网络的性能。同时也说明了利用模型从图像特征上学习的信息能够被用于纠正标注来提升性能。

References
[1] Dai, Jifeng, et al. Deformable convolutional networks. In ICCV, 2017.
[2] Li, Yuhong, Xiaofan Zhang, and Deming Chen. Csrnet: Dilated convolutional neural networks for understanding the highly congested scenes. In CVPR, 2018.
[3] Zhang, Yingying, et al. Single-image crowd counting via multi-column convolutional neural network. In CVPR, 2016

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论ADSCNetCVPR 2020
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

双线性插值技术

双线性插值,又称为双线性内插。在数学上,双线性插值是有两个变量的插值函数的线性插值扩展,其核心思想是在两个方向分别进行一次线性插值。 双线性插值作为数值分析中的一种插值算法,广泛应用在信号处理,数字图像和视频处理等方面。

高斯混合模型技术

高斯混合模型(Gaussian Mixture Model,GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

推荐文章
暂无评论
暂无评论~