Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

陶仁帅作者

ICCV 2021|复杂场景目标识别——北航、软件所、科大讯飞提出X光安检场景下危险品检测基准(已开源)

复杂视觉场景下的目标识别任务有很多亟待解决的问题,也一直是学术界研究的焦点计算机视觉顶会ICCV 2021接收了一篇由北京航空航天大学刘祥龙教授团队、中国科学院软件研究所和科大讯飞共同完成的工作,该工作以X光安检场景下的危险品检测为例,对复杂场景下的遮挡干扰、小目标问题进行了探索,建立了一个大规模的复杂场景目标检测基准,并提出了侧抑制模型。

由高性能计算和大规模数据驱动的基于深度学习的计算机视觉相关技术快速发展,在物体识别、目标检测、语义分割等任务上取得了巨大成功,并在公共安全、国防安全、金融经济等领域得到了广泛应用。然而,与传统视觉任务的训练样本不同,真实开放的视觉场景往往较为复杂,诸如危险品安检、医学影像分析等,样本中广泛存在着目标干扰、视角欠佳、环境变化、取样困难等诸多难题。探索解决开放场景下的视觉任务难题有助于推动计算机视觉相关技术的发展,使得人工智能更好地服务人类社会。

近年来,国内外学术界高度重视以深度学习为基础的计算机视觉算法在复杂视觉场景下的可靠性和鲁棒性。然而,复杂场景下样本的的目标识别任务目前不仅缺乏鲁棒高效的模型,并且缺乏高质量且大规模的评估基准。研究者们想要利用深度学习在复杂场景下的目标识别任务上取得进展,需要同时在训练模型和评估基准两个方面取得突破。

在本文中,来自北航、软件所、科大讯飞的研究人员以X光安检场景下危险品检测任务为例探究复杂场景下的目标识别,建立了包含4.5万多张训练样本、10万多个被专业标注的危险品实例的大规模X光危险品检测任务评估数据集HiXray。在评估基准的基础上,进一步提出了侧抑制模型(Lateral Inhibition Module),从关键特征强化和非关键特征抑制的两个方向来缓解复杂场景带来的识别性能下降的问题。

一、HiXray 评估基准

HiXray数据集包含8类常见的机场禁止携带的物品(不带电芯充电宝、带电芯充电宝、化妆品瓶、水杯、笔记本电脑、手机、平板电脑、非金属打火机)共45364张真实场景下的X射线图像,对于HiXray数据集中每种物品,本文将其与对应物体的自然图像进行共同展示,样例如图2所示:

图 1 危险品实物和其在X光下的成像对应图

类别的实例数量以及训练集和测试集的划分如表1所示:

HiXray

危险品种类

不带芯充电宝

带电芯充电宝

水杯

电脑

手机

平板电脑

化妆品

非金属打火机

训练集

9919

6216

2471

8046

43204

3921

7969

706

测试集

2502

1572

621

1996

10631

997

1980

177

合计

12421

7788

3092

10042

53835

4918

9949

883

表 1 HiXray数据集的类别实例数量分布表

二、侧抑制模型(Lateral Inhibition Network)

和传统图像上的目标识别不同,复杂视觉场景下的目标往往带有强烈的干扰以及个体特征不强等特点,这些特点给目标识别带来难度。作者受在神经生物学中侧抑制机制(双向传播边缘增强机制抑制了动作电位从兴奋的神经元向临近神经元的横向扩散)的启发,设计了侧抑制网络(Lateral Inhibition Network)。该网络包括一个双向传播架构(Bidirectional Propagation),从而自适应的过滤由违禁物品的邻近区域产生的噪声信息。此外,受神经生物学中侧抑制会产生刺激对比从而增加感官知觉的启发,侧抑制网络还包括轮廓特征加强模块——边缘激活(Boundary Activation),该模块从每一层的四个方向强化边界信息,并将它们聚集成一个整体,从而激活边界信息。

图 2Lateral Inhibition Network的整体框架图

1.双向传播架构(Bidirectional Propagation)

对于双向传播架构左侧的自上而下的密集路径而言,它从更高级别金字塔上采样空间较粗但语义较强的特征地图,能够表征更高分辨率的特征。在卷积层中通过侧向连接的过程中,这些特征图得到增强。每个侧向连接融合了来自卷积层和自上而下路径的相同空间大小的特征图。低卷积层的特征图语义层次较低,但由于次采样次数较少,其激活定位更加准确。进一步的,作者构建了密集的连接,以确保滤波的效果最好,公式如下:

其中,x为输入的样本,特征A为双向传播架构左侧输出特征。

进一步地,作者利用边缘激活模块对特征A进行加强(加强过程在下一小节叙述),就得到了特征B。类似于左侧,双向传播架构右侧对轮廓特征强化后的特征B进行自下而上地信息传播,公式如下:

2.边缘激活模块(Boundary Activation)

如图3所示,捕获对象边界的关键是确定一个位置是否是边界点。受原理图的启发,作者设计了边界聚合模块,以感知边界及其周围环境的突然变化。为了模拟双向传播边缘增强产生刺激对比的机制,从而增加感官知觉,作者在每一层输出的特征图内强化四个方向的边界信息,即将它们聚集成一个整体形状来激活边界信息。

图 3边缘激活模块的原理图

经双向传播架构左侧的输出特征A,经边缘激活模块操作之后,就成为了特征B,公式如下:

三、实验

作者在自己所提的HiXray数据集以及已开源的OPIXray数据集上做了大量的实验来全面地评估所提模型和基准,证明了所提出的侧抑制模型(Lateral Inhibition Network)能够出色地解决复杂视觉场景中的X光安检场景下的危险品目标识别的问题。表2是Lateral Inhibition Network在HiXray数据集和OPIXray数据集上相比于流行检测算法的表现。

表2  和不同检测算法对比实验表

可以看到,SSD、FCOS、YOLO-v5等基础检测算法搭载了侧抑制机制后,均有一定程度的提高,提高幅度大于已开源的该任务下的DOAM模型。

同时,由于双向传播架构是一种具有密集连接机制并且对特定的特征进行了增强的特征金字塔机制,因此作者选择了SSD为基础模型(因为SSD模型中不包含特征金字塔结构),将侧抑制机制同经典的特征金字塔机制FPN和双向的PANet机制进行了比较。实验结果如表3所示。

表3 和不同的特征金字塔机制对比实验表

可以看到,侧抑制机制由于其他特征金字塔机制。同时,作者还对模型进行了分离实验,验证了各个子模块的有效性。实验结果如表4所示。

表4消融实验表

这其中,SP指的是双向传播架构的左侧。

最后,作者对实验效果进行了可视化实验(如图4所示),并且还专门对边缘激活模块对边缘特征强化的效果进行了可视化实验(如图5)。

图4 可视化效果对比图

图5 轮廓特征强化效果对比图

四、总结

复杂场景下样本的的目标识别任务目前不仅缺乏鲁棒高效的模型,并且缺乏高质量且大规模的评估基准。本文作者提出的HiXray数据集包含的X光安检场景下的危险品图片,为复杂场景下的目标识别提供了一个很好的评估基准。在评估基准的基础上,进一步提出了侧抑制模型(Lateral Inhibition Module),从关键特征强化和非关键特征抑制的两个方向来缓解复杂场景带来的识别性能下降的问题。本文聚焦于复杂场景下的目标识别,在评估基准和训练模型和两个方面取得突破,促进了深度学习在真实开放场景下的应用发展。

五、传送门

会议论文:https://openaccess.thecvf.com/content/ICCV2021/html/Tao_Towards_Real-World_X-Ray_Security_Inspection_A_High-Quality_Benchmark_and_Lateral_ICCV_2021_paper.html

开源链接:

https://github.com/HiXray-author/HiXray

六、关于作者

论文第一作者陶仁帅,目前在北京航空航天大学攻读博士学位。主要研究方向为复杂场景下的目标识别,包括去遮挡、域适应、小样本等,已在CVPR、ICCV、ACM MM等国际顶级计算机视觉与多媒体会议上发表多篇论文,获2021年度博士研究生国家奖学金。


理论
3
暂无评论
暂无评论~