Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

阿德莱德大学、同济大学、字节跳动作者

CVPR 2021 | 无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉

来自阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法,大幅缩小了自监督预训练与密集预测任务之间的鸿沟。


预训练已被证实能够大大提升下游任务的性能。传统方法中经常利用大规模的带图像标注分类数据集(如 ImageNet)进行模型监督预训练,近年来自监督学习方法的出现,让预训练任务不再需要昂贵的人工标签。然而,绝大多数方法都是针对图像分类进行设计和优化的。但图像级别的预测和区域级别 / 像素级别存在预测差异,因此这些预训练模型在下游的密集预测任务上的性能可能不是最佳的。

基于此,来自阿德莱德大学、同济大学字节跳动的研究者设计了一种简单且有效的密集自监督学习方法,不需要昂贵的密集人工标签,就能在下游密集预测任务上实现出色的性能。目前该论文已被 CVPR 2021 接收。


  • 论文地址:https://arxiv.org/pdf/2011.09157

  • 代码地址:https://github.com/WXinlong/DenseCL


方法

该研究提出的新方法 DenseCL(Dense Contrastive Learning)通过考虑局部特征之间的对应关系,直接在输入图像的两个视图之间的像素(或区域)特征上优化成对的对比(不相似)损失来实现密集自监督学习

两种用于表征学习的对比学习范式的概念描述图。

现有的自监督框架将同一张图像的不同数据增强作为一对正样本,利用剩余图像的数据增强作为其负样本,构建正负样本对实现全局对比学习,这往往会忽略局部特征的联系性与差异性。该研究提出的方法在此基础上,将同一张图像中最为相似的两个像素(区域)特征作为一对正样本,而将余下所有的像素(区域)特征作为其负样本实现密集对比学习。

具体而言,该方法去掉了已有的自监督学习框架中的全局池化层,并将其全局映射层替换为密集映射层实现。在匹配策略的选择上,研究者发现最大相似匹配和随机相似匹配对最后的精度影响非常小。与基准方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的计算开销(仅慢了不到 1%),但在迁移至下游密集任务(如目标检测语义分割)时,表现出了十分优异的性能。DenseCL 的总体损失函数如下:


模型性能

该研究进行消融实验评估了匹配策略对下游任务的性能影响,结果如下表所示。
 


另一组消融实验评估了预训练区域数量对下游任务的性能影响,结果如下表所示。

 
下图展示了该方法迁移至下游密集任务的性能增益:

 

随着训练时间的延长,该研究进一步提供了与基线的直观比较,表明 DenseCL 始终比 MoCo-v2 的性能高出至少 2%:


DenseCL 与 MoCo-v2 的预训练时间消耗对比如下:
 


下图对高相似度匹配进行了可视化,旨在描述局部语义特征间的对应关系:
 



如下图所示,带有随机初始化的大多数匹配都是不正确的,从图中可以看出随着训练时间的变化,对应关系发生了改变。


[1] Improved baselines with momentum contrastive learning. Chen, Xinlei and Fan, Haoqi and Girshick, Ross and He, Kaiming

理论CVPR同济大学阿德莱德大学字节跳动
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

bytedance.com
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

分类数据技术

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。 有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

同济大学机构
推荐文章
暂无评论
暂无评论~