Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

9亿训练集、通用CV任务,微软打造Florence模型打破分类、检索等多项SOTA

来自微软的研究者另辟蹊径,提出了一种新的计算机视觉基础模型 Florence。在广泛的视觉和视觉 - 语言基准测试中,Florence 显著优于之前的大规模预训练方法,实现了新的 SOTA 结果。

面对多样化和开放的现实世界,要实现 AI 的自动视觉理解,就要求计算机视觉模型能够很好地泛化,最小化对特定任务所需的定制,最终实现类似于人类视觉的人工智能计算机视觉基础模型在多样化的大规模数据集上进行训练,可以适应各种下游任务,对于现实世界的计算机视觉应用至关重要。

现有的视觉基础模型,如 CLIP (Radford et al., 2021)、ALIGN (Jia et al., 2021) 和悟道 2.0 等 ,主要侧重于将图像和文本表征映射为跨模态共享表征。近日来自微软的研究另辟蹊径提出了一种新的计算机视觉基础模型 Florence,将表征从粗粒度(场景)扩展到细粒度(对象),从静态(图像)扩展到动态(视频),从 RGB 扩展到多模态。

通过结合来自 Web 规模图像 - 文本数据的通用视觉语言表征, Florence 模型可以轻松地适应各种计算机视觉任务,包括分类、检索、目标检测视觉问答(VQA)、图像描述、视频检索和动作识别。此外,Florence 在许多迁移学习中也表现出卓越的性能,例如全采样(fully sampled)微调、线性探测(linear probing)、小样本迁移和零样本迁移,这些对于视觉基础模型用于通用视觉任务至关重要。Florence 在 44 个表征基准测试中多数都取得了新的 SOTA 结果,例如 ImageNet-1K 零样本分类任务,top-1 准确率为 83.74,top-5 准确率为 97.18;COCO 微调任务获得  62.4 mAP,VQA 任务获得 80.36 mAP。


论文地址:https://arxiv.org/pdf/2111.11432v1.pdf


Florence 模型在有噪声的 Web 规模数据上以同一个目标进行端到端训练,使模型能够在广泛的基准测试中实现同类最佳性能。在广泛的视觉和视觉 - 语言基准测试中,Florence 显著优于之前的大规模预训练方法,实现了新的 SOTA 结果。

方法

构建 Florence 生态系统包括数据管护、模型预训练、任务适配和训练基础设施,如图 2 所示。



数据管护

由于大规模数据多样化对基础模型非常重要,因此该研究提出了一个包含 9 亿个图像 - 文本对的新数据集用于训练。由于网络爬取数据通常是具有噪音的自由格式文本(例如,单词、短语或句子),为了获得更有效的学习,该研究使用了 UniCL,这是 Yang 等人最近提出的「统一图像文本对比学习对象」,这种方法已经被证明其比对比和监督学习方法更优越。

模型预训练

为了从图像 - 文本对中学习良好的表示,该研究使用了包括图像编码器和语言编码器的两塔式(two-tower)架构。对于图像编码器,该研究选择了分层 Vision Transformer 。该研究所提架构在继承了 Transformer self-attention 操作性能优势的同时,这些分层架构对图像的尺度不变性进行了建模,并且具有相对于图像大小的线性计算复杂度,这是进行密集预测任务必不可少的属性。

任务适配

该研究使用 dynamic head adapter(Dai et al., 2021a)、提出的 video CoSwin adapter 从静态图到视频的时间、METER adapter 从图像到语言的模态变化,通过以上该研究将学习到的特征表示沿空间(从场景到对象)进行扩展。Florence 旨在通过小样本和零样本迁移学习来有效适配开放世界,并通过很少的 epoch 训练(例如在检索中)进行有效部署。用户可以根据自己的需求进行定制。

Dynamic Head (Dai et al., 2021a) adapter 用于对象级视觉表示学习。

图 4. METER (Dou et al., 2021) 用作 Florence V+L 适配模型,使用图像文本匹配 (ITM) 损失和掩码语言建模 (MLM) 损失进行训练。

训练基础设施

从能源和成本方面考虑,以尽可能低的成本构建基础模型是至关重要的。该研究开发了可扩展的训练基础设施,以提高训练效率。Florence 训练基础设施由 ZeRO 、激活检查点、混合精度训练、梯度缓存等多项关键技术组成,从而大大减少了内存消耗,提高了训练吞吐量。

实验结果

该研究进行了多项实验,表明了 Florence 显著优于之前的大规模预训练方法。

分类中的零样本迁移


该研究在 ImageNet-1K 数据集和 11 个下游数据集上评估了 Florence 模型。表 1 显示了这 12 个数据集的结果,比较的模型包括 CLIP ResNet 、CLIP Vision Transformer 模型以及 FILIP-ViT,结果显示 Florence 在其中 9 个数据集上表现出色。该研究在 ImageNet-1K 上的零样本迁移方面取得了显着的提高,即 top-1 准确率为 83.74%(比 SOTA 结果高 5.6%),top-5 准确率为 97.18%。


线性评估


线性评估考虑了 11 个分类基准,这些基准同样也适用于零样本分类迁移。该研究将 Florence 与具有 SOTA 性能的模型进行了比较,包括 SimCLRv2、ViT、Noisy Student 和 CLIP 。

结果表明,Florence 优于现有的 SOTA 结果,不过在 CIFAR10、CIFAR100 这两个数据集上性能不如 EfficientNet-L2 。



ImageNet-1K 微调评估

该研究在 ImageNet ILSVRC-2012 基准(Deng et al., 2009)上评估了持续微调的性能,Florence 与几种模型的比较结果如下表 3 所示。Florence 模型的 Top-1 和 Top-5 准确率均优于 BiT(Kolesnikov et al., 2020)和 ALIGN(Jia 等人,2021 年)。Florence 的结果比 SOTA 模型(Dai et al., 2021c)稍差,但其模型和数据规模都比 Florence 大了 3 倍。



小样本跨域分类

下表 4 显示了 Florence 模型适应 CDFSL 基准的结果。与采用集成学习(ensembes learning)和直推学习(transductive learning)的挑战基准获胜者(Liu et al., 2020,下表中用 CW 指代)相比,Florence 采用单一模型,没有对测试数据进行转换,但获得了更优的结果。


图像 - 文本检索

表 5 展示了 Florence 在 Flickr30k 和 MSCOCO 数据集上在文本和图像检索任务上的零样本迁移和微调性能。结果表明,在这两个数据集上,Florence 优于之前所有的微调结果。此外,该方法对检索微调更有效。


目标检测和零样本迁移

目标检测计算机视觉中最突出的应用之一。与现有的大规模预训练模型(如 CLIP、ALIGN 和 Wu Dao 2.0)相比,Florence 更适用于目标检测任务,因为它的适应性有助于学习对象级视觉表征。研究者通过微调目标检测和零样本迁移任务对来 Florence 的对象级视觉表征性能进行评估。

具体地,研究者在 3 个流行的目标检测数据集上评估了微调性能,它们分别是 COCO(Lin et al., 2015)、Object365(Shao et al., 2019)和 Visual Genome(Krishna et al., 2016)。下表 6 展示了与 SOTA 结果的比较,可以看到,Florence 在这些目标检测基准上取得了新的 SOTA 结果。


为了评估 Florence 对新的、多样性和面向应用的任务的迁移性,研究者遵循 (Li et al., 2021b) 设计了一个「开放式目标检测基准」,该基准聚合了来自 Roboflow2 的 11 个公共数据集,涵盖了细粒度鱼类 / 象棋检测、无人机视野检测和 thermal 目标检测等多样性场景。下表 7 表明,Florence 模型能够有效地实现到这些任务的零样本迁移。


视觉语言(V+L)表示学习

研究者在具有挑战性的 VQA (Goyal et al., 2017) 任务上对预训练模型进行了微调,该任务是根据图像上下文来回答问题。下表 8 展示了与当前方法的比较,结果表明 Florence 实现的了新的 SOTA 性能。与使用了 1.8B 图像到文本对的 SimVLM 模型(Wang et al., 2021)相比,Florence 仅使用 900M 数据即可以预训练图像编码器,20M 数据即可以预训练视觉语言预训练(VLP),但取得的结果更好。这也证明了 Florence 的数据效率。


零样本文本到视频检索


研究者在 MSR-VTT (Xu et al., 2016) 数据集上执行了零样本文本到视频评估,他们报告了在 1K-A test(Yu et al., 2018,包含 1k 个视频和字幕对)上的结果, 并在下表 9 中与当前 SOTA 方法进行了比较。结果表明,CLIP6(Radford et al., 2021)和 Florence 这两个图像到文本预训练模型在 R@1 指标上远远优于其他所有 SOTA 方法。


视频动作识别

研究者在微调视频动作识别任务上对 Florence 进行评估。下表 10 展示了 Florence 与当前 SOTA 方法的比较,结果表明在 Kinectics-400 和 Kinectics-600 两个数据集上,分别比 SOTA 方法提升 1.1% 和 1.5%。

入门计算机视觉微软
1
相关数据
图像检索技术

图像检索系统是用于从大型数字图像数据库浏览、搜索和检索图像的计算机系统。 大多数传统和常见的图像检索方法利用向图像添加诸如字幕、关键字或描述之类的元数据的一些方法,以便可以对注释词执行检索。 手动图像注释耗时,费力且昂贵; 为了解决这个问题,人们已经对自动图像标注进行了大量研究。

视觉问答技术

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

文本检索技术

文本检索(Text Retrieval)与图象检索、声音检索、图片检索等都是信息检索的一部分,是指根据文本内容,如关键字、语意等对文本集合进行检索、分类、过滤等。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

迁移学习技术

迁移学习 是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。

视频动作识别技术

视频动作识别任务涉及从视频剪辑(一串二维帧序列)中识别不同的动作,其中的动作可能贯穿整个视频,也可能不会。这有点儿像图像分类任务的一种自然扩展,即在多帧视频中进行图像识别,然后从每一个帧中聚集预测结果。

视频检索技术

视频检索的目的是给定一个文本查询和一个候选视频池,选择与文本查询相对应的视频。

推荐文章
暂无评论
暂无评论~