CVPR 2020 | 中科院、商汤联合提出大规模多标签目标检测新算法

【导读】在 CVPR 2020 上,商汤搜索与决策团队与中科院自动化所合作,针对超大规模多标签目标检测任务,提出了有效的解决方案。该工作以真实世界中的通用检测任务为背景,分析了主要面临的痛点,在损失函数和采样方法上提出了创新,有效地改善了痛点并在量化指标上有显著提升。

背景及分析

深度学习中,数据始终是至关重要的因素之一。随着硬件与算法的发展,在学术界和工业界,对数据规模的需求也越来越强。然而在大规模数据的场景下,出现了许多新的挑战,也使得算法的边界将产生新的定义。

本文以 Open Images 数据库为例来模拟真实世界下的超大规模检测,该数据库拥有 170 万训练图片,1240 万框图并包含 500 个目标类别。在该场景下,我们分析了主要面临的痛点问题:
图11.显式多标签问题

与传统的单标签目标检测不同,真实世界下的物体往往具有多种标签类别,以图 1(a,b)为例,目标可同时具有多种并列的标签类别,也可同时具有父子继承关系的多标签类别。

2.隐式多标签问题

超大规模数据由于其规模,往往采用机器辅助人工的手段进行标注,在训练数据中会频繁出现漏标和混标的情况。以图 1(c,d)为例,部分目标会出现缺失子类标签的情况,另一些易混淆类别的目标会随机性地互标。

3.类别的长尾效应

在学术集中,训练数据的类别一般位置在较均衡的分布,然而在实际应用中,类别的分布呈现出严重的长尾效应。

多标签问题的解决方案

面对显示和隐式的多标签问题,检测中常用的 softmax 将导致多标签之间产生响应值的竞争。这种竞争不仅使得多标签的预测概率明显降低,还会导致训练过程中优化目标的方向错误。

反传梯度为:
其中表示目标的类别响应,代表该目标的 positive 标签个数,为 positive 标签集合,表示每个类别的二分标签。

针对以上观察,本文提出了 concurrent-softmax,在训练和测试过程中,根据目标的多标签和类别的隐性依赖关系输出每种类别的概率值。该算法有效地解决了训练过程中的多标签优化难点,并改善了预测过程中多标签的竞争问题。

反传梯度为:

其中表示在训练数据中统计的类别相对于类别的共存概率分布

表 1 展示了 concurrent-softmax 与传统 loss 的结果对比,表 2 展示了 concurrent-softmax 在训练和测试时的效果。

表 1
表 2

长尾效应的解决方案

长尾效应的主要痛点主要在于部分类别出现频率过高,部分类别出现频率极低,天然采样方法从而导致检测器对稀少类欠拟合。典型的解决方案是均匀采样法,即每种类别图片的采样频率一致,然而此举将导致对稀少类的严重过拟合,且高频类别中大量的训练数据无法被采样到,导致高频类的训练也不充分。本文提出了混合采样和混合训练法以渐进式地逐步改善以上两个问题。

首先,我们以天然采样为基础,设计了混合采样方式,其中天然采样方式下的单类采样频率为:

均匀采样频率为:
混合采样频率则设计为:
其中表示某类别图片数量,表示平滑参数,定义如下:

该采样方式能有效的增加稀少类的采样频率并缓解过拟合。表 3 展示了混合采样方式在性能上的明显提升,图 2,3 分别展示了不同平滑稀疏下采样方式对高频和低频类的单类精度影响。

表 3
图2
图3

其次,我们采用混合训练方式,即用天然采样方法预训练模型,并采用混合采样方式微调模型,保证了高频类的每个样本都被采样过,保证了对高频类的充分学习。表 4展示了混合训练方式带来的精度收益。

表 4

结语

该文章对真实场景下的大规模多标签目标检测问题做了较为全面的分析,并提出了有效可靠的解决方案,为未来类似场景下研究提供了一定的经验和思路。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论目标检测中科院商汤科技CVPR 2020
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

欠拟合技术

使用太少参数,以致于不能很好的拟合数据,称为拟合不足(欠拟合)现象

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

推荐文章
暂无评论
暂无评论~