大连理工大学在CVPR18大规模精细粒度物种识别竞赛中获得冠军

whole.jpg 近日,引人瞩目的国际计算机视觉模式识别大会CVPR 2018在美国盐湖城落下帷幕. 在为期5天的会议中,除了有精彩的口头报告、墙报张贴以及企业展示之外,还有对极具挑战性的竞赛的宣讲和总结. 在大会开幕式的特别环节中,四个具有代表性的竞赛组委会被邀请上台进行宣讲,其中包括细粒度分类workshop FGVC5的相关挑战赛。

细粒度视觉分类(FGCV,fine-grained visual categorization)即识别细分类别的任务,一般它需要同时使用全局图像信息与局部特征信息精确识别图像子类别。细粒度分类是计算机视觉社区最为有趣且有用的开放问题之一,目前还有很多难题期待解决。

2011年,谷歌开始赞助举办第一届FGVC Workshop,之后每两年举办一次,到2017年已经举办了第四届。而由于近年来计算机视觉的快速发展,FGVC活动影响力也越来越大,从去年开始由两年一次改为了一年一次。

从 2017年开始,FGVC开始运作两大挑战赛iNaturalist 与iMaterialist。iNaturalist Challenge 2018 (iNat-2018)由谷歌公司、加州理工和康奈尔大学共同组织,并得到微软公司赞助. 在iNat-2018竞赛中,大连理工大学信息与通信工程学院李培华教授所指导的团队DLUT_VLG取得第1名(1/59),在识别率上分别高出第2名Deep Learning Analytics公司和第3名Baidu VIS团队1.1%和1.8%. 

尽管基于深度学习的视觉识别取得了很大进展,大规模物种识别问题仍然是一个巨大的挑战. 在微软公司启动的智慧地球项目中,为了有效地保护生物多样性,关键任务之一是能够从数字图像中自动识别自然界中种类繁多的动物、植物和菌类等. 谷歌公司也与加州理工和康奈尔大学合作,提出视觉维基百科项目,致力于精细粒度种类识别问题. 正是在这样的背景下,谷歌公司和微软公司联合推出了iNat-2018,旨在解决基于视觉的大规模物种识别这一难题. 相对于粗粒度、仅包含1000类、类别样本均衡的ImageNet竞赛,iNat-2018具有显著不同:(1) 属于精细粒度分类问题─类别之间差异细微;(2) 类别数规模更大─类别数是ImageNet竞赛的8倍多,超过8000类物种;(3) 不同类别样本分布极不均衡,呈现长尾分布─每类最多有1000张样本图像、最少却仅有2张样本图像;上述这些因素使iNat-2018竞赛更具有挑战性.

本次竞赛冠军DLUT_VLG所使用核心技术方案,是基于该团队所研发的矩阵幂正规化协方差聚合(MPN-COV)卷积网络网络模型及快速训练算法. MPN-COV模型的新颖之处在于在网络中引入了二阶统计信息作为图像表征,与经典方法在学习过程中仅仅挖掘一阶统计信息具有显著不同,能够学习到分辨能力更强的视觉特征. 通过引入全局协方差聚合和矩阵幂正规化技术,MPN-COV模型在性能上显著优于经典的卷积网络,而且收敛速度更快,相关工作发表在ICCV 2017CVPR 2018上. 除了全局协方差聚合之外,该课题组也深入研究了全局高斯聚合卷积网络,解决了高斯流形嵌入和端到端学习问题,研究成果发表于CVPR 2017 (oral)TPAMI 2017

产业大连理工
11
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

推荐文章
暂无评论
暂无评论~