Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA

mask-and-predict 的方法可能会成为计算机视觉领域的新流派。
自监督预训练在自然语言处理方面取得了惊人的成功,其基本思路中包含着掩码预测任务。前段时间,何恺明一作的论文《Masked Autoencoders Are Scalable Vision Learners》提出了一种简单实用的自监督学习方案 MAE,将 NLP 领域的掩码预测(mask-and-predict)方法用在了视觉问题上。现在来自 Facebook AI 研究院(FAIR)的研究团队又提出了一种自监督视觉预训练新方法 MaskFeat。

图片

论文地址:https://arxiv.org/pdf/2112.09133.pdf

MaskFeat 首先随机掩码一部分输入序列,然后预测被掩码区域的特征。通过研究 5 种不同类型的特征,研究者发现方向梯度直方图 (HOG) 是一种很好的特征描述方法,在性能和效率方面都表现优异。并且研究者还观察到 HOG 中的局部对比归一化对于获得良好结果至关重要,这与之前使用 HOG 进行视觉识别的工作一致。

该方法可以学习丰富的视觉知识并驱动基于 Transformer 的大规模模型。在不使用额外的模型权重和监督的情况下,MaskFeat 在未标记的视频上进行预训练,使用 MViT-L 在 Kinetics-400 上实现了前所未有的 86.7% top-1 准确率。此外,MaskFeat 还能进一步推广到图像输入,并在 ImageNet 上获得了有竞争力的结果。

方法

掩码视觉预测任务旨在修复被掩码的视觉内容。通过建模掩码样本,该模型从识别物体的部位和运动的意义上实现了视频理解。例如,要补全下图中的图像,模型必须首先根据可见区域识别对象,还要知道对象通常的形态和移动方式,以修复缺失区域。

图片

该任务的一个关键组成部分是预测目标。在自然语言处理任务中,掩码语言建模使用词表 tokenize 语料库作为目标。而在视觉领域,原始视觉信号是连续的、高维的,并且没有可用的自然「词表」。

因此,MaskFeat 提出将预测被掩码区域的特征。借助从原始完整样本中提取的特征进行监督。目标特征的选择在很大程度上影响了预训练模型的属性,该研究对特征进行了广泛的解释,并主要考虑了 5 种不同类型的目标特征。

图片

首先研究者将目标特征分为两组:1) 可以直接获得的单阶段目标,包括像素颜色和 HOG;2) 由经过训练的深度网络提取的两阶段目标。由于预测两阶段目标是借助训练有素的深度网络有效学得的(类似于模型蒸馏),因此教师模型的预训练和推理的额外计算成本是不可避免的。该研究主要探究的 5 种特征类型是:

  • 像素颜色;

  • 方向梯度直方图(HOG);

  • 离散变分自编码器(dVAE);

  • 深度特征;

  • 伪标签。


该研究通过了一系列的分析探究了这 5 种特征的利弊。尽管掩码语言建模最初是在预定义词表上预测分类分布,但 BEiT 中的离散化不需要视觉信息。分析结果表明,连续的无监督特征和图像描述符是性能较好的预测目标,其中前者需要模型蒸馏,后者则不需要额外的计算开销。

图片

此外,研究者还发现监督训练的目标特征会产生较差的结果,这可能与存在于特征中的类级特定信息有关,即这种方法对于局部掩码建模来说过于全局化。总的来说,考虑性能和计算成本之间的权衡,该研究最终选择了 HOG 作为 MaskFeat 的默认特征。

方向梯度直方图(HOG)特征是一种在计算机视觉图像处理中用来进行物体检测的特征描述方法,最早是在 CVPR 2005 的一篇论文《Histograms of Oriented Gradients for Human Detection》中提出的。

图片

HOG 特征提取的过程如下:首先把样本图像分割为若干个像素单元,把梯度方向平均划分为多个区间,在每个单元里面对所有像素的梯度方向在各个方向区间进行直方图统计,得到一个多维的特征向量,每相邻的单元构成一个区间,把一个区间内的特征向量联起来得到多维的特征向量,用区间对样本图像进行扫描,扫描步长为一个单元。最后将所有块的特征串联起来,就得到了完整的特征。

基于视频识别的实验

该研究在 K400 数据集上将 MaskFeat 和之前的工作进行了比较,结果如下表 3 所示,使用 MaskFeat 的 MViT-L 在 Kinetics-400 上实现了新的 SOTA——86.7% top-1 准确率

图片

迁移学习

为了评估该方法在下游任务上的迁移学习性能,该研究在 AVA v2.2 上微调了 MViT-L↑312,40×3 Kinetics 模型,实验结果如上表 3 和下表 4 所示,在 K600 上实现了 88.3% top-1 准确率,K700 上为 80.4%,均实现了新的 SOTA。

图片

该研究在 AVA v2.2 上微调了 MViT-L↑312,40×3 Kinetics 模型,下表 5 给出了 MaskFeat 模型与现有方法相比的平均精度 (mAP)。MaskFeat 在全分辨率测试中达到了前所未有的 38.8 mAP,大大超过了以前所有方法。

图片

感兴趣的读者可以阅读论文原文了解更多研究细节。
理论FacebookMAE
2
相关数据
何恺明人物

Facebook AI Research研究科学家。Residual Net提出者。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~