Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

常清作者

CVPR 2021 | 视觉目标检测大模型GAIA:面向行业的视觉物体检测一站式解决方案

中国科学院自动化研究所智能感知与计算研究中心联合华为等企业提出面向行业的视觉物体检测一站式解决方案 GAIA。


深度学习与大数据的浪潮下,视觉目标检测在各个基准数据集上已经达到了优异的性能。中国科学院自动化研究所智能感知与计算研究中心联合华为等企业提出面向行业的视觉物体检测一站式解决方案 GAIA。通过 GAIA,用户可轻松获得不同硬件环境下的可直接用于部署的目标检测模型。GAIA 致力于构建一种生态,它以目标检测为基础,后续将会开枝散叶扩展到更多领域,期望更多的学者和用户共同维护 GAIA 的迭代,参与到 GAIA 社区中。该研究的论文已被 CVPR 2021接收。


  • 论文地址:https://arxiv.org/pdf/2106.11346.pdf

  • 开源框架:https://github.com/GAIA-vision


GAIA 应时而生

目标检测是识别图片中有哪些物体以及物体的位置(坐标位置)的技术,是计算机视觉应用的基础,比如实例分割、人体关键点提取、人脸识别等。在互联网、大数据、人工智能等技术的发展浪潮下,目标检测展现出巨大的应用价值,受到工业界、学术界的密切关注。各类研究机构争相构建并对外公开 COCO、OpenImage 等大规模数据集用于目标检测模型训练。数据集的日益丰富极大促进了技术的更新迭代,不断涌现出以 Faster R-CNN 为脉络发展的 Two-stage 和以 YOLOSSD 为基础的 One-stage 目标检测新范式。

目标检测技术在产业应用中的需求越来越广泛和深入,学术界已经训练好的模型评估都是基于标准 benchmark,在产业化应用落地中通常表现出严重的 “水土不服”,需要重新定制化开发。快速设计出最适合工业界不同业务场景的目标检测模型是一项很有挑战的工作,需要决定制化需求开发中的核心痛点问题:
一、数据整合难。数据治理是建模的基本要素,在 AI 应用开发过程中,从数据的采集、清洗和转换到最终生成算法所需的数据集需要经历繁琐的流程和花费高昂的成本,而且很有可能因为数据的准确性、完整性、有效性等问题,无法发挥模型优势。
二、模型优化难。模型需有冗繁调参、预训练过程才能发挥其性能。很多终端用户由于没有足够相关专业领域知识,无法从纷繁复杂的模型及数据中选取最优资源。对个人用户来说,计算资源不足导致训练耗时过长,使得算法调优更是雪上加霜。
三、资源共享难。不同用户可能有类似的需求,但是他们都需要分别进行一系列从数据到模型的重复开发,模型迁移难度大,而且资源浪费严重。

四、模型定制难。针对不同的下游任务,往往需求千差万别,数据各式各样,算力各有不同,现在方法往往需要针对不同下游任务进行人工定制,费时费力。
为此提出了面向行业的视觉物体检测一站式解决方案:视觉目标检测大模型 GAIA(相关人员包括:张兆翔研究员、彭君然博士、卜兴源、常清等)。该平台适应移动终端、个人电脑、大型服务器等任意场景,终端用户只需要在 GAIA 配置文件中设置检测的类别,输入简单的几行命令,GAIA 迅速响应,自主学习数据集选择、模型选择超参数优化等过程,用户可以轻松、快速获得任意下游数据、任意耗时要求的自适应解决方案(图 1)。

图 1. GAIA - 面向行业的视觉物体检测一站式解决方案

GAIA 详解

视觉目标检测大模型 GAIA 作为面向行业打造的下一代一站式目标检测新方案,包含上游数据集、全模型训练、稀疏数据下数据选取和部署模型提取四个模块。

图 2. 视觉目标检测大模型 GAIA 技术框架

上游数据集赋能

各类研究机构为不同的研究任务构建了各类目标检测公开数据集,如 COCO、Object365、Open Images、Caltech、CityPersons、UODB 等都是主流的目标检测数据集。学术界往往都是在上述标准数据集下进行检测任务的训练和测试,但是对产业界来讲,如何从已有的数据集中选取适合应用场景的子集却是举步维艰。
借鉴大规模预训练模型 BERT、GPT-3 等在自然语言处理领域中的成功,GAIA 将该范式延拓到视觉目标检测领域,对所有可用公开数据集整合并进行大规模预训练,增加模型的泛化能力和表示能力。由于自然语言中语料数据集本身是离散型,自然语言处理中的大规模预训练很容易构建无监督训练任务。但是这种方法迁移至计算机视觉领域就会遇到很多瓶颈,不同数据集的类别标签很容易出现歧义,比如像 earth、ground 可能在不同的数据集中都表示地面,或不同数据集类别标签之间存在包含关系,像绿植和树。GAIA 通过语义模型对类别建立语义相似度,将不同数据集中类别语义相似度大于阈值的归为同一类别,从而梳理出最终的类别和 ID 的映射关系。

全模型训练

神经网络架构搜索算法 OFA、BigNAS 等在训练超网时,对其中的子网同时训练,这样只需花费很小的代价就可得到不需要微调就性能优异的子网络。与 BERT、GPT 等预训练大模型相比,GAIA 不同之处在于将 NAS 与大规模预训练进行结合,提供涵盖各种 latency 下的高性能预训练网络。设计良好的子网采样空间对网络的训练至关重要,在我们进行探索的过程中发现网络深度和输入图像分辨率是影响模型性能的核心因素,网络宽度是模型运行占用显存的关键因素(图 3)。因此 GAIA 的采样空间从网络深度、输入分辨率、网络宽度三个维度出发,根据已有的经典网络模型设置锚点,在锚点周围空间从三个维度进行子网抽取,让整个模型训练过程更加有效。

图 3. 模型性能分析

特定下游任务数据选取

用户在本地下游任务中,能提供的有标签数据十分有限,已有的开源数据集虽然包含的数据类别十分丰富,数量也十分庞大,但是相同类别的数据存在域间差异,比如漫画图片中的鸟和自然场景中的鸟存在很大差异,直接通过类别使用开源数据集,只会对用户本地下游任务产生不利的影响,选取合适数据集,帮助下游任务是一项不小的挑战。


如果终端用户提供的有标签数据数量没有达到预先设定好的阈值,GAIA 会直接根据该使用的语义模型找到本地类别中语义信息最近似的类别,在该类别的上游数据集上通过模型映射向量的相似度找到域间差异最小的一部分图片(如图 5),并对提取模型快速训练。通过该功能,即使用户只能够提供几张图片的数据场景下,GAIA 同样可以提供十分出色的模型。

图 5. 特定任务数据选取

下游模型选择

GAIA 已经测好所包含各种子网的 FLPOPS TABLE,以及多种硬件平台下的 LATENCY TABLE(图 6)。对于初级使用者而言,只需要在本地提供 FLPOPS、LATENCY 和硬件平台,就可以获得满足这些约束的性能最佳的子网。对于经验丰富的使用者,可通过 GAIA 提供的接口,自定义添加其他约束条件,轻松获取性能优异的定制化子网模型

图 6. 下游模型结构选取

优越性能

GAIA 的强大之处最直接体现在可以满足用户给出的任意时延或任意下游数据,快速定制可部署检测模型,以 COCO 数据集为例,GAIA-det 可以快速提供时延 16~53ms、AP 38.2~46.2 的模型。用户不需要再花费很大的精力从数据到模型重新开发。
GAIA 已经在 VOC、Object365、OpenImages、Caltech、KITTI 等 15 个目标检测常用公开数据集上通过测试(图 7),发现 GAIA 提供的模型可以很好的满足终端用户的定制需求。

图 7. GAIA 在目标检测常用数据集的性能对比

未来展望

视觉目标检测大模型 GAIA 是面向行业的视觉物体检测一站式解决方案,随着应用场景的日益丰富和理论技术的突破,不断更新的上游数据集会定期汇聚到 GAIA,新的训练模型和网络架构都会通过测试验证后迭代至 GAIA,确保 GAIA 一直为终端用户提供最优质的行业解决方案。现阶段,GAIA-det 已在 Github 上开源,GAIA-seg、GAIA-ssl 接近完成,即将推出,致力于解决更多领域的问题。。GAIA 是我们大家共同的 GAIA,GAIA 需要大家的宝贵意见和建议,期望更多的学者和用户共同维护 GAIA 的迭代,参与到 GAIA 生态建设中,一起让 GAIA 成长得更快更好。

参考文献:
Xingyuan Bu*, Junran Peng*, Junjie Yan, Tieniu Tan, Zhaoxiang Zhang†, GAIA: A Transfer Learning System of Object Detection that Fits Your Needs, IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, Online (Nashville, United States), June 19-25, 2021

理论目标检测中科院自动化研究所CVPR 2021
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

超参数优化技术

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

SSD技术

一种计算机视觉模型。论文发表于 2015 年(Wei Liu et al.)

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

YOLO技术

YOLO 模型最早是由 Joseph Redmon 等人在 2015 年发布的,并在随后的两篇论文中进行了修订。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型,最简单的模型最有可能是最佳选择(奥卡姆剃刀)。

实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

Tieniu Tan人物

谭铁牛, 英国帝国理工学院电子电气工程系图像处理专业博士研究生,中国科学院院士、英国皇家工程院外籍院士、发展中国家科学院院士和巴西科学院通讯院士。现任中央政府驻港联络办副主任、中国科学院自动化研究所研究员、博士生导师、智能感知与计算研究中心主任。

推荐文章
暂无评论
暂无评论~