魏秀参作者

旷视南京研究院魏秀参:细粒度图像分析综述

本期 R Talk 主题是细粒度级别图像分析领域的现状与展望,讲述者是旷视科技南京研究院负责人魏秀参博士,主要内容包含 5 个方面:

1)简单介绍细粒度图像分析领域;

2)细粒度图像检索现状;

3)细粒度图像识别现状;

4)细粒度图像分析相关的其他计算机视觉任务;

5)细粒度图像分析发展展望。


介绍

在传统计算机视觉研究中,图像分析通常是针对诸如“狗”“车”和“鸟”等传统意义类别上的分类、检索。而在许多实际应用中,图像对象往往来自某一传统类别下较细粒度级别的不同子类类别,如不同种类的“狗”——哈士奇、阿拉斯加、比熊等;或不同种类的“车”——奥迪、宝马、奔驰等。

细粒度级别图像分析是针对此类问题的一项计算机视觉领域热门研究课题,其目标是对上述细粒度级别图像中的物体子类进行定位、识别及检索等若干视觉分析任务的研究,具有真实场景下广泛的应用价值。然而因细粒度级别子类别间较小的类间差异和较大的类内差异,使其区别于传统图像分析问题成为更具挑战的研究课题。

现实世界中有非常普遍的细粒度图像分析任务。比如美国大自然保护协会曾在kaggle举办的、针对捕鱼业中海船上若干种鱼类的细粒度分类,甚至还有根据鲸鱼尾部进行个体级别的更加细粒度的识别任务。此外,还有针对植物树叶的细粒度识别, 城市管理场景中对过往车辆的细粒度分析, 新零售场景中商品识别的细粒度识别和检索等等。

解决细粒度图像分析的一个关键是找到细粒度物体的Keypoints,利用这些关键部位的不同,进行针对性的细粒度分析,如检索、识别等。目前,细粒度图像分析领域的经典基准数据集包括:

  • 鸟类数据集CUB200-2011,11788张图像,200个细粒度分类

  • 狗类数据集Stanford Dogs,20580张图像,120个细粒度分类

  • 花类数据集Oxford Flowers,8189张图像,102个细粒度分类

  • 飞机数据集Aircrafts,10200张图像,100个细粒度分类

  • 汽车数据集Stanford Cars,16185张图像,196个细粒度分类

细粒度图像分析一直是一个火热的计算机视觉研究方向。每年计算机视觉顶级会议如CVPR、ICCV、ECCV、IJCAI以及顶级期刊如TPAMI、IJCV、TIP等都有大量相关论文出现。此外,围绕这一方向还频繁举办相关Workshop和挑战赛,比如Workshop on Fine-Grained Visual Categorization、The Nature Conservancy Fisheries Monitoring、iFood Classification Challenge等。在细粒度图像分析领域,一些国际顶尖的研究机构,如斯坦福大学、加州伯克利、牛津大学皆是细粒度研究的科研重镇。

细粒度图像分析一般有两个核心任务,一是细粒度图像检索,二是细粒度图像识别。下面将分别进行重点介绍。

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
理论图像识别细粒度识别图像分析
15
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像检索技术

图像检索系统是用于从大型数字图像数据库浏览、搜索和检索图像的计算机系统。 大多数传统和常见的图像检索方法利用向图像添加诸如字幕、关键字或描述之类的元数据的一些方法,以便可以对注释词执行检索。 手动图像注释耗时,费力且昂贵; 为了解决这个问题,人们已经对自动图像标注进行了大量研究。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

特征抽取技术

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

旷视机构

北京旷视科技有限公司是一家行业领先的人工智能公司,在深度学习方面拥有核心竞争力。旷视向客户提供包括先进算法、平台软件、应用软件及内嵌人工智能功能的物联网设备的全栈式解决方案,并在多个行业取得领先地位。2017年和2019年,旷视跻身《麻省理工科技评论》发布的两项「50大最聪明公司」榜单中。 旷视是全球为数不多的拥有自主研发深度学习框架的公司之一,旷视自研的深度学习框架MegEngine作为旷视人工智能算法平台Brain++的核心组件,为算法训练、部署及模型改进过程提供重要支持。 旷视总部位于北京,拥有 2,000 多名员工,并在北京、上海、南京、成都等地都设有研发中心。旷视的典型客户包括金融科技公司、银行、智能手机公司、第三方系统集成商、物业管理者、学校、物流公司及制造商等。

https://www.megvii.com/
暂无评论
暂无评论~