全球计算机视觉顶会CVPR 2019论文出炉:腾讯优图25篇论文入选

全球计算机视觉顶级会议 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE国际计算机视觉模式识别会议) 即将于6月在美国长滩召开。本届大会总共录取来自全球论文1299篇。中国团队表现不俗,此次,腾讯公司有超过58篇论文被本届CVPR大会接收,其中腾讯优图实验室25篇、腾讯AI Lab33篇,相比过去两年成绩大幅提升。

作为计算机视觉领域级别最高的研究会议,CVPR2019录取论文代表了计算机视觉领域在2019年最新和最高的科技水平以及未来发展潮流。CVPR官网显示,今年有超过5165篇的大会论文投稿,最终录取1299篇。这些录取的最新科研成果,涵盖了计算机视觉领域各项前沿工作。2019年腾讯公司有超过58篇论文被本届CVPR大会接收 ,其中腾讯AI Lab33篇、腾讯优图实验室25篇。而2018年总计被收录31篇,2017年被收录18篇。2019年的录取数量相比前两年都有大幅提高,成绩斐然。

腾讯此次被收录的论文涵盖深度学习优化原理、视觉对抗学习、人脸建模与识别、视频深度理解、行人重识别、人脸检测等热门及前沿领域。全球领先的科研成果,展示了腾讯计算机视觉领域强大的人才储备、科研底蕴和创新能力。这些新颖的计算机视觉算法不仅有着丰富的应用场景,使得更多的计算机视觉算法能应用于日常生活之中,还为后续研究提供了可贵的经验和方向。

以下介绍部分腾讯优图入选CVPR2019的论文:

Unsupervised Person Re-identification by Soft Multilabel Learning 

软多标签学习的无监督行人重识别

相对于有监督行人重识别(RE-ID)方法,无监督RE-ID因其更佳的可扩展性受到越来越多的研究关注,然而在非交叠的多相机视图下,标签对(pairwise label)的缺失导致学习鉴别性的信息仍然是非常具有挑战性的工作。为了克服这个问题,我们提出了一个用于无监督RE-ID的软多标签学习深度模型。该想法通过将未标注的人与辅助域里的一组已知参考者进行比较,为未标注者标记软标签(类似实值标签的似然向量)。基于视觉特征以及未标注目标对的软性标签的相似度一致性,我们提出了软多标签引导的hard negative mining方法去学习一种区分性嵌入表示(discriminative embedding)。由于大多数目标对来自交叉视角,我们提出了交叉视角下的软性多标签一致性学习方法,以保证不同视角下标签的一致性。为实现高效的软标签学习,引入了参考代理学习(reference agent learning)。我们的方法在Market-1501和DukeMTMC-reID上进行了评估,显著优于当前最好的无监督RE-ID方法。

Visual Tracking via Adaptive Spatially-Regularized Correlation Filters

基于自适应空间加权相关滤波的视觉跟踪研究

本文提出自适应空间约束相关滤波算法来同时优化滤波器权重及空间约束矩阵。首先,本文所提出的自适应空间约束机制可以高效地学习得到一个空间权重以适应目标外观变化,因此可以得到更加鲁棒的目标跟踪结果。其次,本文提出的算法可以通过交替迭代算法来高效进行求解,基于此,每个子问题都可以得到闭合的解形式。再次,本文所提出的跟踪器使用两种相关滤波模型来分别估计目标的位置及尺度,可以在得到较高定位精度的同时有效减少计算量。大量的在综合数据集上的实验结果证明了本文所提出的算法可以与现有的先进算法取得相当的跟踪结果,并且达到了实时的跟踪速度。

Adversarial Attacks Beyond the Image Space

超越图像空间的对抗攻击

生成对抗实例是理解深度神经网络工作机理的重要途径。大多数现有的方法都会在图像空间中产生扰动,即独立修改图像中的每个像素。在本文中,我们更为关注与三维物理性质(如旋转和平移、照明条件等)有意义的变化相对应的对抗性示例子集。可以说,这些对抗方法提出了一个更值得关注的问题,因为他们证明简单地干扰现实世界中的三维物体和场景也有可能导致神经网络错分实例。

在分类和视觉问答问题的任务中,我们在接收2D输入的神经网络前边增加一个渲染模块来拓展现有的神经网络。我们的方法的流程是:先将3D场景(物理空间)渲染成2D图片(图片空间),然后经过神经网络把他们映射到一个预测值(输出空间)。这种对抗性干扰方法可以超越图像空间。在三维物理世界中有明确的意义。虽然图像空间的对抗攻击可以根据像素反照率的变化来解释,但是我们证实它们不能在物理空间给出很好的解释,这样通常会具有非局部效应。但是在物理空间的攻击是有可能超过图像空间的攻击的,虽然这个比图像空间的攻击更难,体现在物理世界的攻击有更低的成功率和需要更大的干扰。

Learning Context Graph for Person Search

基于上下文图网络的行人检索模型

本文由腾讯优图实验室与上海交通大学主导完成。

近年来,深度神经网络在行人检索任务中取得了较大的成功。但是这些方法往往只基于单人的外观信息,其在处理跨摄像头下行人外观出现姿态变化、光照变化、遮挡等情况时仍然比较困难。本文提出了一种新的基于上下文信息的行人检索模型。所提出的模型将场景中同时出现的其他行人作为上下文信息,并使用卷积图模型建模这些上下文信息对目标行人的影响。我们在两个著名的行人检索数据集CUHK-SYSU和PRW的两个评测维度上刷新了当时的世界纪录,取得了top1的行人检索结果。

Underexposed Photo Enhancement using Deep Illumination Estimation

基于深度学习优化光照的暗光下的图像增强

本文介绍了一种新的端到端网络,用于增强曝光不足的照片。我们不是像以前的工作那样直接学习图像到图像的映射,而是在我们的网络中引入中间照明,将输入与预期的增强结果相关联,这增强了网络从专家修饰的输入/输出图像学习复杂的摄影调整的能力。基于该模型,我们制定了一个损失函数,该函数采用约束和先验在中间的照明上,我们准备了一个3000个曝光不足的图像对的新数据集,并训练网络有效地学习各种照明条件的丰富多样的调整。通过这些方式,我们的网络能够在增强结果中恢复清晰的细节,鲜明的对比度和自然色彩。我们对基准MIT-Adobe FiveK数据集和我们的新数据集进行了大量实验,并表明我们的网络可以有效地处理以前的困难图像。

Homomorphic Latent Space Interpolation for Unpaired Image-to-image Translation

基于同态隐空间插值的不成对图片到图片转换

生成对抗网络在不成对的图像到图像转换中取得了巨大成功。循环一致性允许对没有配对数据的两个不同域之间的关系建模。在本文中,我们提出了一个替代框架,作为潜在空间插值的扩展,在图像转换中考虑两个域之间的中间部分。该框架基于以下事实:在平坦且光滑的潜在空间中,存在连接两个采样点的多条路径。正确选择插值的路径允许更改某些图像属性,而这对于在两个域之间生成中间图像是非常有用的。我们还表明该框架可以应用于多域和多模态转换。广泛的实验表明该框架对各种任务具有普遍性和适用性。

X2CT-GAN: Reconstructing CT from Biplanar X-Rays with Generative Adversarial Networks

基于生成对抗网络的双平面X光至CT生成系统

当下CT成像可以提供三维全景视角帮助医生了解病人体内的组织器官的情况,来协助疾病的诊断。但是CT成像与X光成像相比,给病人带来的辐射剂量较大,并且费用成本较高。传统CT影像的三维重建过程中围绕物体中心旋转采集并使用了大量的X光投影,这在传统的X光机中也是不能实现的。在这篇文章中,我们创新性的提出了一种基于对抗生成网络的方法,只使用两张正交的二维X光图片来重建逼真的三维CT影像。核心的创新点包括增维生成网络,多视角特征融合算法等。我们通过实验与量化分析,展示了该方法在二维X光到三维CT重建上大大优于其他对比方法。通过可视化CT重建结果,我们也可以直观的看到该方法提供的细节更加逼真。在实际应用中, 我们的方法在不改变现有X光成像流程的前提下,可以给医生提供额外的类CT的三维影像,来协助他们更好的诊断。
腾讯技术工程
腾讯技术工程

腾讯技术工程事业群在机器之心的内容专栏

理论图像增强生成对抗网络深度学习行人重识别计算机视觉CVPR 2019腾讯优图
4
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

视觉问答技术

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

图像增强技术

图像增强技术用于增强图像中的有用信息,它可以是一个失真的过程,其目的是要改善图像的视觉效果,针对给定图像的应用场合。它通过有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

推荐文章
暂无评论
暂无评论~