Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部专栏

首个X光下的小样本检测基准和弱特征增强网络,北航、讯飞新研究入选ACM MM 2022

小样本检测任务(few-shot detection)旨在解决真实工业场景中样本获取困难情况下模型泛化能力差的痛点,尝试通过少量的训练样本获得具有泛化能力的模型。小样本检测任务一直是学术界研究的焦点,传统的方法主要聚焦于自然光数据,在常见的 COCO 数据集上进行评估。由于自然光数据样本通常具有颜色鲜艳、目标清晰等特点,即便样本数量有限,卷积神经网络依然可以提取到较为可靠的辨识度特征。

在真实的工业场景下,例如 X 光安检场景,由于一些危险品类别的出现频率较低,导致样本获取十分困难,是一个典型的小样本检测问题。然而,由于 X 光成像的特殊性,样本普遍具有色彩单调、目标模糊等特点,这些因素使得真实工业场景下的小样本检测任务面临新的困境,即低辨识度导致卷积神经网络提取到的微弱特征难以支撑决策。目前,真实工业场景下的小样本检测任务很少被研究者们关注到

近日,计算机多媒体顶级会议 ACM Multimedia 2022 接收论文结果已经正式公布,会议接收了一篇由北京航空航天大学、科大讯飞研究院共同完成的工作。这项工作以 X 光安检场景为例,针对一些危险品类别出现频率较低导致样本难以获取的现实情况,构建了 X-ray FSOD 数据集,为 X 光下小样本检测任务提供模型检测能力评估基准

研究者在构建评估基准的基础上提出了微弱特征增强网络,利用原型学习和特征调和的思想缓解微弱特征带来的性能损失,为小样本检测带来新的思考。

  • 开源链接:https://github.com/wytbwytb/WEN

一、X 光下小样本检测评估基准(X-ray FSOD 数据集)

评估基准的构建对于一项任务的研究是必不可少的。本文针对 X 光安检场景下的小样本检测任务,提出了首个工业场景下的小样本检测任务评估基准,X-ray FSOD 数据集。

在构建基准的过程中,本文遵循了经典的小样本检测数据集 Pascal VOC 的设置(类别总数为 20,其中 15 类为基类,5 类为新类),从现有公开的数据集中选择了 14 个类别,其中 5 个类来自 OPIXray 数据集(ACM MM2020),5 个类来自 HiXray 数据集(ICCV 2021),剩余 4 个类来自 EDS 数据集(CVPR 2022),并新贡献了额外的 6 个类别,组建了一个总计 20 个类别的 X 光安检场景下的标准小样本检测任务评估基准

X-ray FSOD 数据集中各个类别在自然光和 X 光下的对照图如图 1 所示。

图 1 X-ray FSOD 数据集中不同类别的自然光和 X 光样例示意图。

二、微弱特征增强网络

由于遮挡严重、颜色匮乏等原因,X 光下的小样本检测任务面临着目标特征非常微弱的问题。由于判别信息微弱,传统的小样本检测方法在该场景下很难达到令人满意的效果。

受原型学习聚合辨识度信息的启发,本文提出的微弱特征增强网络。微弱特征增强网络包含两个核心模块,即原型感知模块(PA)和特征调和模块(FR)

原型感知模块对待检测目标周围的关键区域进行聚合,进而提取目标本身的可依据特征,并建立类别原型库以生成每个类别的可依据特征。

特征调和模块自适应调整不同类别相对应原型的影响程度,将原型感知模块提取出的辨识度信息选择性地融合至特定对象本身的特征中。

原型感知模块(PA)

原型感知模块的主要任务是通过聚合生成类别原型,建立全局原型库的方式,来提取出不同类别的可依据特征。首先,该模块将属于不同目标的候选框特征根据与目标真实标注框的 IoU 值加权聚合,形成目标的特征原型,公式如下:
随后,该模块将属于相同类别的目标特征原型聚合。紧接着,利用得到的类别原型集合建立并更新全局原型库中对应类别的原型,公式如下:
为了进一步增强不同类别之间提取出可依据特征的区别,研究者们对全局原型库设计了损失函数,计算每两个类别特征原型之间余弦相似度的平均值,通过最小化损失函数可以让不同类别原型的特征向量趋于正交,公式如下:
特征调和模块(FR)

特征调和模块(FR)所做的是将原型库中存储的类别原型特征与候选框特征进行不同程度融合,从而增强主干网络提取出的表示特征

调和过程首先需要确定的是由主干网络生成的候选框特征需要融合全局原型库中对应的哪一种类别特征原型。研究者们采取的类别选取方式为:在训练阶段,将候选框特征所属目标的类别标签作为融合类别;在测试阶段,计算候选框特征 f_R 与全局原型库中每个类别特征原型之间的余弦相似度并比较,将相似度最高的类别原型作为融合类别。

类别特征原型的融合方式采用了两种方式,第一种是朴素融合方式,公式如下:
而由于 X 光场景下不同类别的信息丢失程度不同,因此不同类别对类别原型中包含的可依据特征的需求程度也不同,因此仅仅用朴素的融合方式很难达到令人满意的效果,该模块设计了卷积的融合方式,公式如下:

三、实验

实验部分首先在 VOC 轮廓数据集上证明了微弱特征会导致少样本目标检测模型的性能下降(微弱特征影响实验);其次在真实弱特征场景(X-ray FSOD 数据集)、模拟弱特征(VOC 轮廓数据集)以及传统场景(Pascal VOC 数据集)下进行了对比试验,充分说明了模型的有效性;最后进行分离实验。

实验对比的模型包括 TFA(ICML 2020)、FSCE (CVPR 2021)、DeFRCN (ICCV 2021)、DCNet (CVPR 2021) 等 SOTA 方法。

1. 微弱特征影响实验

表 1:微弱特征带来的性能下降

2. 对比试验


(1)X-ray FSOD 数据集

表 2:在 X-ray FSOD 上新类 mAP50 精度的对比结果

(2)VOC 轮廓数据集

表 3:在 VOC 轮廓数据集上新类 mAP50 精度的对比结果


(3)Pascal VOC 数据集

表 3:在 Pascal VOC 数据集上新类 mAP50 精度的对比结果


分离实验

表 4:分离实验结果


四、总结

本文中,研究者们指出 X 光场景下的小样本检测任务往往面临着由于遮挡严重、颜色匮乏等原因导致的目标特征非常微弱的困境。因此,传统的小样本检测方法在这些场景下存在严重性能下降的问题。

为了给上述重要问题的研究提供支持,来自北航、讯飞的研究人员构建了首个 X 光场景下的小样本检测数据集 ——X-ray FSOD 数据集。同时,提出了微弱特征增强网络,通过聚合目标周围的关键区域来提取目标本身的可依据特征,并建立类别原型库以生成每个类别的可依据特征,再将提取出的类别可依据特征融合至特定对象本身的特征中。

研究者们在 X 光场景下的 X-ray FSOD 数据集与常见场景下的 Pascal VOC 数据集上做了大量的实验,并证明了提出的 WEN 模型优于其他小样本检测模型。

五、参考文献

[1]Renshuai Tao, Hainan Li, Tianbo Wang, Yanlu Wei, Yifu Ding, Bowei Jin, Hongping Zhi, Xianglong Liu, Aishan Liu. Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network. IEEE CVPR 2022.
[2]Renshuai Tao, Yanlu Wei, Xiangjian Jiang, Hainan Li, Haotong Qin, Jiakai Wang, Yuqing Ma, Libo Zhang, Xianglong Liu. Towards Real-world X-ray Security Inspection: A High-Quality Benchmark And Lateral Inhibition Module For Prohibited Items Detection. IEEE ICCV 2021.
[3]Renshuai Tao, Tianbo Wang, Ziyang Wu, Cong Liu, Aishan Liu, Xianglong Liu. Few-shot X-ray Prohibited Item Detection: A Benchmark and Weak-feature Enhancement Network. ACM MM 2022.
[4]Yanlu Wei, Renshuai Tao, Zhangjie Wu, Yuqing Ma, Libo Zhang, Xianglong Liu. Occluded Prohibited Items Detection: An X-ray Security Inspection Benchmark and De-occlusion Attention Module. ACM Multimedia 2020.
理论ACM MM 2022弱特征增强网络X光下的小样本检测基准
相关数据
科大讯飞机构

科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。自成立以来,长期从事语音及语言、自然语言理解、机器学习推理及自主学习等核心技术研究并保持了国际前沿技术水平;积极推动人工智能产品研发和行业应用落地,致力让机器“能听会说,能理解会思考”,用人工智能建设美好世界。2008年,公司在深圳证券交易所挂牌上市。

http://www.iflytek.com
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

暂无评论
暂无评论~