Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

全球计算机视觉顶会CVPR 2020论文出炉:腾讯优图17篇论文入选

全球计算机视觉顶级会议CVPR2020  (IEEE Conference on Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议) 即将于2020年6月14日-19日在美国西雅图召开。本届大会总共录取来自全球论文1470篇,腾讯优图实验室入选17篇。

作为计算机视觉领域世界三大顶会之一,CVPR 的论文投稿量近三年持续大涨,CVPR官网显示,今年大会论文有效投稿数量6656篇,最终录取1470篇,录取率仅为22%,相比去年降低3个百分点。

本届大会涵盖人体识别、基于图像建模、计算摄影与图像、视频分析与事件识别、脸部和手势分析、文件分析、统计方法与学习等多个主题。腾讯被收录的论文涉及主题广泛,涵盖类比学习、人脸识别、物体检测、行人重识别等热门及前沿领域,这些最新科研成果展示了腾讯在计算机视觉领域的技术实力,同时也将对计算机视觉算法落地化应用起到助推作用。

以下为部分腾讯优图入选CVPR2020的论文:

1、神经网络的滤波器嫁接技术

Filter Grafting for Deep Neural Networks

神经网络存在天然的无效滤波器,滤波器剪枝(filter pruning)技术主要对无效的滤波器进行移除使网络的推理速度增加。然而在这篇文章中,优图提出滤波器嫁接(filter grafting)技术。和pruning相反,优图并不是移除网络的无效滤波器,而是通过引入外部信息的方法来激活无效滤波器使之重新发挥作用。激活的方式为将其他网络的有效滤波器的参数嫁接到无效滤波器上。为了更好地发挥grafting的性能,优图同时提出了信息熵相关的指标评估滤波器的好坏,并用自适应的方式来平衡嫁接网络和被嫁接网络的参数。通过大量的实验,表明grafting后的网络在有效滤波器的数量上和模型性能上均有大幅度的提高。

2、类比学习:基于变换的无监督光流估计

Learning by Analogy: Reliable Supervision from Transformations for Unsupervised Optical Flow Estimation

利用视图合成,进行光流的无监督学习,逐渐成为替代光流监督学习的一类方法。但是在一些剧烈变化的场景上,可能会违背无监督学习的目标,反而导致学习效果不好。这篇文章中,优图提出了一种称为“增广正则化”的学习框架。该框架在一些常规学习框架基础上,利用增广变换的数据多做一次前向,并利用原始数据的变换预测作为监督。在文章中,优图进一步拓展网络,支持共享光流解码器的多视图输入。在多个benchmark上,与其它的无监督方法比,以显著的效果提升,取得了当前最好的正确率。另外,优图提出的无监督方法,使用更少的参数量,就可以媲美最近一些监督方法的效果。

3、面向密集多角度物体检测的动态修正网络

Dynamic Refinement Network for Oriented and Densely Packed Object Detection

目前主流的物体检测⽅方法在旋转(rotated)及密集排列(densely packed)⽬标场景下,检测性能显著下降。腾讯优图认为主要原因是:深度神经⽹网络中同层神经元感受野、形状、⻆角度单一,不适合处理多⻆度、多形状的目标;模型学到的一般性知识不具备针对特定样本⾃适应调整的能力。针对以上两点,优图提出动态修正⽹络(Dynamic Refinement Network,图1)。具体说来:(1) 设计了自适应感受野调整模块,使模型能够根据目标形状、旋转角度⾃适应地调整感受野,缓解单一的感受野与多变的⽬标之间的矛盾。(2)针对分类与回归任务设计了动态修正分类器 (图2(左))与动态修正回归器(图2(右)),使模型兼顾静态知识(statistic knowledge)和动态知识(dynamic knowledge)的学习,赋予模型依据样本自适应调整的能⼒。结合以上两点, 优图设计了统一的动态修正网络。在当前著名的密集旋转目标检测数据集 (DOTA、HRSC2016、 SKU110K)上,该⽅法均取得了新的最佳性能。 

page1image12996048

page1image12995216page1image12992720

4、自适应课程学习人脸识别函数

CurricularFace: Adaptive Curriculum Learning Loss for Deep Face Recognition

人脸识别中常用损失函数主要包括两类,基于间隔或者难样本挖掘。前一类方法对所有样本都采用一个固定的间隔值,忽略了样本自身的难易信息。后一种方法则在整个网络训练周期都强调困难样本,可能导致网络无法收敛问题。在工作中,优图基于课程学习的思路,提出了一种新的自适应课程学习损失函数。在训练初始阶段,方法主要关注容易的样本;随着训练进行,逐渐关注较难的样本。同时,在同一个训练阶段,不同的样本根据其难易程度被赋予不同的权值。在常用的多个人脸识别benchmark上,该方法相较于SOTA方法都取得了稳定一致的提升。

5、基于注意力卷积二叉神经树的细粒度视觉分类

Attention Convolutional Binary Neural Tree for Fine-Grained Visual Categorization 

本文由腾讯优图实验室和中科院软件所联合提出。细粒度视觉分类(Fine-Grained Visual Categorization,FGVC)因样本类间差异更加细微,往往只能借助微小的局部差异才能区分出不同的类别,使其成为一项重要但具有挑战性的任务。本文提出了一种基于注意力机制的卷积二叉神经树结构。具体来说,将传统的决策树与神经网络结合,在树的内部节点中使用路由来确定树内从根到叶的计算路径,并且在树的边上添加了卷积操作增强表示学习,最终决策融合了所有叶节点的预测。该模型以一种由粗到细的层次方式学习具有判别力的特征。此外,采用非对称的策略来增加多尺度特征提取,增强样本的区分性特征表示。采用SGD优化方法以端到端的方式训练整个网络。该方法在CUB-200-2011,Stanford Cars 和 Aircraft数据集上进行了评估,显著优于当前其他的弱监督细粒度方法。

6、基于注意力机制及多关系检测器的小样本物体检测

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

本文由香港科技大学和腾讯优图实验室联合提出。目标检测网络已经被广泛应用到安保,自动驾驶,医学图像等各个领域。然而传统的目标检测网络需要使用大量高质量的训练样本对模型进行训练。这些训练样本需要大量的人力物力进行标注,往往无法快速获得,所以无法将目标检测模型快速部署到新样本的检测中,而小样本目标检测方法可以很好地解决这一问题。联合团队提出了一种基于深度孪生网络的小样本目标检测模型,通过基于注意力机制的候选框网络,多关系检测器以及三元组对比训练方法对网络进行改进,使得网络能够不对新物体重新训练即可应用于新类别检测。此外,文章中提供了一个1000类的小样本物体检测数据集,希望可以方便该领域的研究。

该联合团队的工作主要有以下贡献:首先,使用注意力机制对物体检测候选框进行筛选。将待检测新物体的特征作为滤波器在输入图片上进行卷积,以此找出潜在的候选框区域。然后,使用多关系检测器对这些候选框进行分类以及位置调整。多关系检测器对候选框和新物体进行像素级、区域级和全图级的多级关系匹配,以此找出匹配程度最高的区域作为检测输出。最后,构建(目标样本,正样本,负样本)训练样本三元组对模型进行训练,使得网络能够同时学习到相同物体间的相似性和不同物体间的差异性,从而大大提升网络在新样本上的检测性能。该方法在多个数据集上均取得了最好的结果,且无需在新物体上进行任何训练。其基本框架图如下:

图片包含 屏幕截图, 照片

描述已自动生成

7、基于显著性引导级联抑制网络的行人重识别

Salience-Guided Cascaded Suppression Network for Person Re-identification

本文由北京大学、腾讯优图和南方科技大学联合提出。利用注意力机制对全局和局部特征进行建模,作为最终的行人表征,已成为行人再识别(Re-ID)算法的主流趋势。这些方法潜在的局限性是,它们侧重于提取最突出的特征(显著性特征),但重新识别一个人可能依赖于不同情况下显著性特征所掩盖的各种其他的线索,比如身体、衣服甚至鞋子等。为了解决这一局限性,联合团队提出了一种新的显著性引导级联抑制网络(SCSN),该网络使模型能够挖掘多样化的显著性特征,并通过级联的方式将这些特征集成融合到最终的特征表示中。

联合团队的工作主要有以下贡献:第一、我们观察到,以前网络学习到的显著性特征可能会阻碍网络学习其他重要信息。为了解决这一局限性,引入了级联抑制策略,该策略使网络能够逐级挖掘被其他显著特征掩盖的各种潜在的、有用的特征,并融合各级提取的特征作为最后的特征表示; 第二、提出一个显著特征提取(SFE)单元,该单元可以抑制在上一级联阶段学习到的显著特征,然后自适应地提取其他潜在的显著特征,以获得行人的不同线索;第三、开发了一种有效的特征聚合策略,充分增强了网络提取潜在显著特征的能力。实验结果表明,该方法在四个大规模数据集上的性能优于现有最好的方法。特别是,该方法在CUHK03数据集上比目前最好的方法提升7.4%。其基本框架图如下:

图片包含 屏幕截图

描述已自动生成

图片包含 文字, 地图

描述已自动生成

8、概念归因的卷积神经网络的全局解释

Towards Global Explanations of Convolutional Neural Networks with Concept Attribution

本文由腾讯优图实验室和香港中文大学合作完成。卷积神经网络(CNN)的广泛应用,使得解释其行为变得越来越重要。其中,全局解释因其有助于理解整个样本类别的模型预测,最近引起了极大关注。但是,现有方法绝大多数都依赖于模型的局部逼近和对单个样本预测的独立研究,这使得它们无法反映出卷积神经网络的真实推理过程。联合团队提出了一种创新的两阶段框架,即对可解释性的攻击(AfI),以更忠实地解释卷积神经网络。 AfI根据用户定义的概念的重要性来解释模型决策。它首先进行特征遮挡分析,该过程类似于攻击模型以得出不同特征的重要性的过程,于是有能力学习全局解释。然后,通过语义任务将特征重要性映射到概念重要性,下图展示了AfI的框架结构。实验结果证实了AfI的有效性及其相比于现有方案的优越性。本文中还演示了其在提供卷积神经网络理解方面的用例,例如基础模型预测和模型认知中的偏差。

9、基于注意力机制提高对抗可迁移性

Boosting the Transferability of Adversarial Samples via Attention

本文由腾讯优图实验室和香港中文大学合作完成。 深度学习模型的广泛部署使得在实践中评估模型的鲁棒性成为必需,尤其是对于安防领域和安全敏感领域例如自动驾驶和医疗诊断。攻击是一种重要的衡量模型鲁棒性的方式,其中针对深度网络图像分类器生成对抗图像是最基本和公认的任务之一。 最近,针对图像分类器的基于迁移的黑盒攻击引起了越来越多的兴趣。这种攻击方式,攻击者需要基于本地代理模型来制作对抗性图像,而没有来自远端实际目标的反馈信息。 在这种具有挑战性的设置下,由于对所使用的本地模型的过度拟合,合成的对抗性样本通常无法获得良好的成绩。因此,文章中提出了一种新颖的机制来减轻过度拟合的问题,从而增强黑盒攻击的可迁移性。不同的网络架构例如VGG16,ResNet,Inception在识别图片时会有相似的图像注意力,比如都倾向于注意猫脸来识别猫。基于此,通过模型提取特征的注意力梯度来规范对抗性示例的搜索。 这种基于注意力规约的对抗样本搜索使得联合团队可以优先考虑攻击可能被各种体系结构共同关注的关键特征,从而促进结果对抗实例的可迁移性。在ImageNet分类器上进行的大量实验证实了文章中策略的有效性,进一步在白盒和黑盒两种条件下对比了最新方法,该攻击策略都表现出了一致的优越性。下图呈现了我们的基于注意力机制的模型攻击框架。

理论腾讯优图CVPR 2020腾讯计算机视觉
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

信息熵技术

在信息论中,熵是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里,“消息”代表来自分布或数据流中的事件、样本或特征。熵的单位通常为比特,但也用Sh、nat、Hart计量,取决于定义用到对数的底。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

港科大机构

香港科技大学(The Hong Kong University of Science and Technology),位于中国香港,简称港科大(HKUST),为环太平洋大学联盟、全球大学校长论坛、东亚研究型大学协会、亚洲大学联盟、中国大学校长联谊会重要成员,并获AACSB和EQUIS双重认证,是一所亚洲顶尖、国际知名的研究型大学。该校以科技和商业管理为主、人文及社会科学并重,尤以商科和工科见长。截至2019年9月,学校设有理学院、工学院、工商管理学院、人文社会科学学院等4个学院及跨学科课程事务处;校园占地超过900亩,有教员697人,各类学生16054人,其中本科生10148人,研究生5906人。

https://hkust.edu.hk/
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

事件识别技术

事件识别(事件模式匹配)指检测与处理相关的事件,从而提供实施反应措施的机会。比如识别计算机网络节点中的攻击,视频内容中的人类活动,社交网络上的新兴故事和趋势,智能城市中的交通和运输事件,电子市场中的欺诈,心律失常和流行病传播等。在每个场景中,事件识别通过理解大数据流而做出相应的反应。

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

光流估计技术

光流估计用于估计图像序列中的每个像素的运动,在计算机视觉中有许多应用,例如图像分割,对象分类,视觉测距和驾驶员辅助。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

推荐文章
暂无评论
暂无评论~