
在深度学习中,数据始终是至关重要的因素之一。随着硬件与算法的发展,在学术界和工业界,对数据规模的需求也越来越强。然而在大规模数据的场景下,出现了许多新的挑战,也使得算法的边界将产生新的定义。
本文以 Open Images 数据库为例来模拟真实世界下的超大规模检测,该数据库拥有 170 万训练图片,1240 万框图并包含 500 个目标类别。在该场景下,我们分析了主要面临的痛点问题:图11.显式多标签问题
与传统的单标签目标检测不同,真实世界下的物体往往具有多种标签类别,以图 1(a,b)为例,目标可同时具有多种并列的标签类别,也可同时具有父子继承关系的多标签类别。
2.隐式多标签问题
超大规模数据由于其规模,往往采用机器辅助人工的手段进行标注,在训练数据中会频繁出现漏标和混标的情况。以图 1(c,d)为例,部分目标会出现缺失子类标签的情况,另一些易混淆类别的目标会随机性地互标。
3.类别的长尾效应
在学术集中,训练数据的类别一般位置在较均衡的分布,然而在实际应用中,类别的分布呈现出严重的长尾效应。
多标签问题的解决方案
面对显示和隐式的多标签问题,检测中常用的 softmax 将导致多标签之间产生响应值的竞争。这种竞争不仅使得多标签的预测概率明显降低,还会导致训练过程中优化目标的方向错误。

针对以上观察,本文提出了 concurrent-softmax,在训练和测试过程中,根据目标的多标签和类别的隐性依赖关系输出每种类别的概率值。该算法有效地解决了训练过程中的多标签优化难点,并改善了预测过程中多标签的竞争问题。

反传梯度为:
其中表示在训练数据中统计的类别相对于类别的共存概率分布。
表 1 展示了 concurrent-softmax 与传统 loss 的结果对比,表 2 展示了 concurrent-softmax 在训练和测试时的效果。
表 1表 2
长尾效应的解决方案
长尾效应的主要痛点主要在于部分类别出现频率过高,部分类别出现频率极低,天然采样方法从而导致检测器对稀少类欠拟合。典型的解决方案是均匀采样法,即每种类别图片的采样频率一致,然而此举将导致对稀少类的严重过拟合,且高频类别中大量的训练数据无法被采样到,导致高频类的训练也不充分。本文提出了混合采样和混合训练法以渐进式地逐步改善以上两个问题。
首先,我们以天然采样为基础,设计了混合采样方式,其中天然采样方式下的单类采样频率为:
均匀采样频率为:混合采样频率则设计为:
其中表示某类别图片数量,表示平滑参数,定义如下:
表 3



其次,我们采用混合训练方式,即用天然采样方法预训练模型,并采用混合采样方式微调模型,保证了高频类的每个样本都被采样过,保证了对高频类的充分学习。表 4展示了混合训练方式带来的精度收益。
表 4
结语
该文章对真实场景下的大规模多标签目标检测问题做了较为全面的分析,并提出了有效可靠的解决方案,为未来类似场景下研究提供了一定的经验和思路。