机器之心编辑部报道

ECCV 2018奖项公布:德国团队获最佳论文,吴育昕、何恺明上榜

今日,ECCV 2018 获奖论文公布,来自德国航空航天中心、慕尼黑工业大学的研究者获得最佳论文奖项;吴育昕与何恺明合作的《Group Normalization》、Albert Pumarola 等人合作的《GANimation: Anatomically-aware Facial Animation from a Single Image》获得了最佳论文荣誉提名奖。

当前,在人工智能大浪潮下,学术会议成为产业界甚至公众密切关注的事件。

前有 NIPS 门票开放注册 11 分钟后被抢光,而正在火热进行的 ECCV 官网也提前发布通知表示,大会已经满额,不要自发来参与此大会。

作为计算机视觉领域的三大顶会之一,ECCV 今年的火爆程度超乎寻常。据数据显示,今年大会参会人数近 3200 人,是上届(2016)的两倍。

论文接收方面,本届大会收到论文投稿 2439 篇,接收 776 篇(31.8%),59 篇 oral 论文,717 篇 poster 论文。在活动方面,ECCV 2018 共有 43 场 Workshop 和 11 场 Tutorial。

除了介绍本届大会的参会与论文接收情况,会议主办方在周三的晚宴中还公布了今年的获奖论文:

最佳论文

最佳论文奖由来自德国航空航天中心、慕尼黑工业大学的团队获得。值得一提的是港中文大学教授、商汤科技联合创始人汤晓鸥是颁奖委员会成员之一。

论文:Implicit 3D Orientation Learning for 6D Object Detection from RGB Images

  • 作者:Martin Sundermeyer、En Yen Puang、Zoltan-Csaba Marton、Maximilian Durner、Rudolph Triebel

  • 机构:德国航空航天中心、慕尼黑工业大学

  • 论文链接:http://openaccess.thecvf.com/content_ECCV_2018/papers/Martin_Sundermeyer_Implicit_3D_Orientation_ECCV_2018_paper.pdf

摘要:我们提出了一个基于 RGB 的实时目标检测和 6D 姿势估计流程。我们的新型 3D 目标朝向估计方法基于去噪自编码器(Denoising Autoencoder)的一种变体,其使用域随机化(Domain Randomization)在 3D 模型的模拟视图上进行训练。我们称之为「增强自编码器」(Augmented Autoencoder,AAE),它和现有方法相比具备多项优势:无需真实的姿势标注训练数据,可泛化至多种测试传感器,且内在地能够处理目标和视图对称性。该方法不学习从输入图像到目标姿势的显性映射,而是提供样本在潜在空间中定义的目标朝向隐性表征。在 T-LESS 和 LineMOD 数据集上的实验表明,我们的方法优于基于模型的类似方法,可以媲美需要真实姿态标注图像的当前最优方法。

具体而言,我们的方法在单张 RGB 图像上运行,由于不需要深度信息,其可用性大大提高。尽管我们注意到深度图可以被选择性地合并以改进估计。第一步,我们应用一个单次多框检测器(Single Shot Multibox Detector,SSD)来提供物体边界框和标识符。在生成的场景裁剪图上,我们采用了新的 3D 朝向估计算法,该算法基于先前预训练的深度网络架构。虽然深度网络也在现有方法中使用,但我们的方法不同之处在于,我们在训练期间没有从 3D 姿态标注数据中显式地学习。相反,我们从渲染的 3D 模型视图中隐式地学习表征。

本论文提出方法的原理图如下所示:

图 1:具有同质转化 H_cam2obj ∈ R^(4x4)(右上)和深度精制结果 H^(refined)_cam2obj(右下)的 6D 目标检测管道

图 4:AAE(增强自编码器)的训练过程。

图 5:具有遮挡测试输入的自编码器 CNN 架构。

表 5:LineMOD:使用不同训练和测试数据的目标召回(ADD 标准),结果来自 [35]。

最佳论文获奖团队接受颁奖

荣誉提名论文

论文:Group Normalization

  • 作者:吴育昕、何恺明

  • 机构:Facebook AI Research (FAIR)

  • 论文链接:https://arxiv.org/abs/1803.08494

摘要:批归一化(BN)是深度学习发展史中的一项里程碑技术,使得大量神经网络得以训练。但是,批量维度上的归一化也衍生出一些问题——当批量统计估算不准确导致批量越来越小时,BN 的误差快速增大,从而限制了 BN 用于更大模型的训练,也妨碍了将特征迁移至检测、分割、视频等计算机视觉任务之中,因为它们受限于内存消耗,只能使用小批量。在本论文中,我们提出了作为批归一化(BN)简单替代的组归一化(GN)。GN 把通道分为组,并计算每一组之内的均值和方差,以进行归一化。GN 的计算与批量大小无关,其精度也在各种批量大小下保持稳定。在 ImageNet 上训练的 ResNet-50 上,当批量大小为 2 时,GN 的误差比 BN 低 10.6%。当使用经典的批量大小时,GN 与 BN 相当,但优于其他归一化变体。此外,GN 可以自然地从预训练阶段迁移到微调阶段。在 COCO 的目标检测和分割任务以及 Kinetics 的视频分类任务中,GN 的性能优于或与 BN 变体相当,这表明 GN 可以在一系列不同任务中有效替代强大的 BN;在现代的深度学习库中,GN 通过若干行代码即可轻松实现。

图 1:ImageNet 分类误差 vs. 批大小。这是在 ImageNet 训练集上用 8 个工作站(GPU)训练、在验证集上进行评估的 ResNet-50 模型。

具体内容参见:FAIR 何恺明等人提出组归一化:替代批归一化,不受批量大小限制

论文:GANimation: Anatomically-aware Facial Animation from a Single Image

  • 作者:Albert Pumarola、Antonio Agudo、Aleix M. Martinez、Alberto Sanfeliu、Francesc Moreno-Noguer

  • 机构:西班牙机器人与工业信息研究所、俄亥俄州立大学

  • 论文链接:https://arxiv.org/abs/1807.09251

摘要:近期生成对抗网络(GAN)在人脸表情合成任务中取得了惊人的表现。其中最成功的架构是 StarGAN,它使用特定域的图像来调整 GAN 生成过程,即一系列相同表情的人脸图像。尽管该方法很有效,但它只能生成不连续的表情,而这是由数据集决定的。为了解决这个局限,本文提出了一种基于动作单元(AU)标注的新型 GAN 条件化方法,该方法在连续流形中描述了定义人脸表情解剖结构的运动。我们的方法允许控制每个 AU 的激活值大小,并将其组合。此外,我们还提出了一个完全无监督的策略来训练该模型,仅需要用激活 AU 标注的图像,并利用注意力机制使我们的网络对背景和光照条件变化具备鲁棒性。扩展评估结果表明,我们的方法在合成更多样表情(按解剖结构的肌肉运动),以及处理自然图像的能力上都超越了对比的条件生成模型。

图 1:从单张图像生成的人脸动画。研究者提出了一种解剖结构上连贯的方法,该方法不局限于离散数量的表情,可以对给定的图像进行动画化处理, 并在一些连续的图像域中生成新的表情。在这些例子中,只给出最左边的图像输入 I_yr(由绿色方框圈出), 参数α控制微笑表情中包含的目标动作单元的激活程度。此外, 该系统可以处理非自然光照条件下的图像, 如最下面一行的例子。

以下是部分动画示例:

具体内容参见:ECCV 2018 | GANimation 让图片秒变 GIF 表情包,秒杀 StarGAN

除了最佳论文,ECCV 2018 还颁布了 Everingham 奖、Koenderink 奖两大奖项。前者是为了纪念 Mark Everingham,后者是为了奖励经得起时间考验的计算机视觉基础研究。

Everingham 奖

  • 获奖人:Alan Smeaton、Wessel Kraaij、Paul Over、George Awad

  • 贡献:自 2003 年以来参与了一系列数据集和研讨会,推动了大规模视频检索方面的进展。

  • 获奖人:Changchang Wu

  • 贡献:为运动恢复结构(structure from motion)提供了一个记录完备的软件库。

Koenderink 奖

论文:Hamming Embedding and Weak Geometric Consistency for Large Scale Image Search

  • 作者:Herve Jegou, Matthijs Douze, and Cordelia Schmid 

  • 机构:INRIA Grenoble, LEAR, LJK

  • 论文链接:https://lear.inrialpes.fr/pubs/2008/JDS08/jegou_hewgc08.pdf

论文:Semi-supervised On-Line Boosting for Robust Tracking 

  • 作者:Helmut Grabner, Christian Leistner, Horst Bischof

  • 机构:奥地利格拉茨科技大学计算机图形与视觉研究所、瑞士苏黎世联邦理工学院计算机视觉实验室

  • 论文链接:http://www.vision.ee.ethz.ch/boostingTrackers/Grabner2008Semi-supervisedOn-lineboosting.pdf 

理论计算机视觉何恺明ECCV 2018
5
相关数据
商汤科技机构

商汤科技成立于 2014 年,专注于计算机视觉和深度学习的原创技术,是中国领先的人工智能头部公司,估值超过 45 亿美金。以「坚持原创,让 AI 引领人类进步」为使命,商汤科技建立了国内顶级的自主研发的深度学习超算中心,并成为中国一流的人工智能算法供应商。商汤科技不仅在技术实力上领跑行业,商业营收亦领先同行业,在多个垂直领域的市场占有率居首位。目前,商汤科技已与国内外多个行业的 400 多家领军企业建立合作,包括 Qualcomm、英伟达、本田、中国移动、银联、万达、苏宁、海航、中央网信办、华为、小米、OPPO、vivo、微博、科大讯飞等知名企业及政府机构,涵盖安防、金融、智能手机、移动互联网、汽车、智慧零售、机器人等诸多行业,为其提供基于人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等技术的完整解决方案。

www.sensetime.com
何恺明人物

Facebook AI Research研究科学家。Residual Net提出者。

汤晓鸥人物

汤晓鸥,现任香港中文大学信息工程系系主任,兼任中国科学院深圳先进技术研究院副院长。中央组织部“千人计划”入选者,全球人脸识别技术的“开拓者”和“探路者”,商汤科技联合创始人。2014年3月,汤晓鸥团队发布研究成果,基于原创的人脸识别算法,准确率达到98.52%,首次超越人眼识别能力(97.53%)。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

提升算法技术

Boosting是一种主要用于减少偏差的机器学习集成元算法,也是监督学习的一个变化,是一种将弱学习器转换为强学习器的机器学习算法家族。 Boosting是基于Kearns和Valiant(1988,1989)提出的问题:一组弱学习器能创造一个强大的学习器吗?一个弱的学习器被定义为一个分类器,它与真实的分类只有轻微的相关性(它可以比随机猜测更好地标注示例)。相反,强大的学习器是一个与真实分类任意相关的分类器。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

暂无评论
暂无评论~