魏秀参作者

旷视南京研究院魏秀参:细粒度图像分析综述

本期 R Talk 主题是细粒度级别图像分析领域的现状与展望,讲述者是旷视科技南京研究院负责人魏秀参博士,主要内容包含 5 个方面:

1)简单介绍细粒度图像分析领域;

2)细粒度图像检索现状;

3)细粒度图像识别现状;

4)细粒度图像分析相关的其他计算机视觉任务;

5)细粒度图像分析发展展望。


介绍

在传统计算机视觉研究中,图像分析通常是针对诸如“狗”“车”和“鸟”等传统意义类别上的分类、检索。而在许多实际应用中,图像对象往往来自某一传统类别下较细粒度级别的不同子类类别,如不同种类的“狗”——哈士奇、阿拉斯加、比熊等;或不同种类的“车”——奥迪、宝马、奔驰等。

细粒度级别图像分析是针对此类问题的一项计算机视觉领域热门研究课题,其目标是对上述细粒度级别图像中的物体子类进行定位、识别及检索等若干视觉分析任务的研究,具有真实场景下广泛的应用价值。然而因细粒度级别子类别间较小的类间差异和较大的类内差异,使其区别于传统图像分析问题成为更具挑战的研究课题。

现实世界中有非常普遍的细粒度图像分析任务。比如美国大自然保护协会曾在kaggle举办的、针对捕鱼业中海船上若干种鱼类的细粒度分类,甚至还有根据鲸鱼尾部进行个体级别的更加细粒度的识别任务。此外,还有针对植物树叶的细粒度识别, 城市管理场景中对过往车辆的细粒度分析, 新零售场景中商品识别的细粒度识别和检索等等。

解决细粒度图像分析的一个关键是找到细粒度物体的Keypoints,利用这些关键部位的不同,进行针对性的细粒度分析,如检索、识别等。目前,细粒度图像分析领域的经典基准数据集包括:

  • 鸟类数据集CUB200-2011,11788张图像,200个细粒度分类

  • 狗类数据集Stanford Dogs,20580张图像,120个细粒度分类

  • 花类数据集Oxford Flowers,8189张图像,102个细粒度分类

  • 飞机数据集Aircrafts,10200张图像,100个细粒度分类

  • 汽车数据集Stanford Cars,16185张图像,196个细粒度分类

细粒度图像分析一直是一个火热的计算机视觉研究方向。每年计算机视觉顶级会议如CVPR、ICCV、ECCV、IJCAI以及顶级期刊如TPAMI、IJCV、TIP等都有大量相关论文出现。此外,围绕这一方向还频繁举办相关Workshop和挑战赛,比如Workshop on Fine-Grained Visual Categorization、The Nature Conservancy Fisheries Monitoring、iFood Classification Challenge等。在细粒度图像分析领域,一些国际顶尖的研究机构,如斯坦福大学、加州伯克利、牛津大学皆是细粒度研究的科研重镇。

细粒度图像分析一般有两个核心任务,一是细粒度图像检索,二是细粒度图像识别。下面将分别进行重点介绍。

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
理论图像识别细粒度识别图像分析
11
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像检索技术

图像检索系统是用于从大型数字图像数据库浏览、搜索和检索图像的计算机系统。 大多数传统和常见的图像检索方法利用向图像添加诸如字幕、关键字或描述之类的元数据的一些方法,以便可以对注释词执行检索。 手动图像注释耗时,费力且昂贵; 为了解决这个问题,人们已经对自动图像标注进行了大量研究。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

特征抽取技术

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

旷视科技机构

旷视科技是以人工智能技术为核心的物联网解决方案提供商,致力于用非凡科技为客户和社会创造最大价值。基于自主原创的AI技术体系,旷视赋能手机、摄像头、机器人等感知设备,让“机器看懂世界”,并通过软硬结合的解决方案构建个人IoT、公共IoT、商业IoT三大物联网络,助力行业实现降本增效,提升客户商业效益和人们生活品质。旷视科技是世界最早一批用深度学习方法实现人脸识别规模化商用的人工智能企业之一,旗下拥有全球领先的人脸识别开放平台Face++和第三方人脸身份验证平台FaceID,并已在多个垂直领域推出了包括人脸识别支付、人脸识别解锁、全帧智能抓拍机在内的多个具有开创性意义的AI产品。 旷视科技在行业的领先地位源于对核心技术持之以恒的创新。作为中国人工智能原创技术企业代表之一,旷视拥有国内外在申及授权专利900余件,并代表行业领先技术提供方参与了19项人工智能国家及行业标准制定。旷视在各项国际人工智能顶级竞赛中多次击败Google、Facebook、Microsoft等知名企业,揽获25项世界技术评测第一,在ECCV2018的COCO、Mapillary竞赛中,旷视独揽4冠,刷新了中国AI技术的世界新高度。旷视科技取得的成绩获得了诸多认可。2014年,旷视被认定为国家级高新技术企业;2015年,旷视被认定为中关村高新技术企业;2016年11月,旷视入选中关村前沿科技企业;2017年3月,旷视被科技部评为“独角兽”企业,并位列人工智能企业首位;2017年5月,旷视核心人脸识别技术被美国著名科技评论杂志《麻省理工科技评论》评定为2017全球十大突破技术,同时旷视入榜“全球最聪明公司”排名第11位;2017年7月,旷视受邀在国家政府半年经济会议中向李克强总理做企业创新汇报;2017年12月,旷视产业级的人工智能技术入选世界互联网领先科技成果;2018年,旷视入选国家知识产权示范企业,获批全国博士后科研工作站一级站点,并承担国家重点研发计划“变革性技术关键科学问题”重点专项核心课题。

暂无评论
暂无评论~