机器之心编辑部报道

7500人参会,国内接收论文数量超越美国,ICCV 2019最佳论文揭晓

两年一度的计算机视觉国际顶会 ICCV 2019 已于 10 月 27 日在韩国首尔开幕。在过去两天的 workshop 与 tutorial 上,我们看到了各个公司与团队在挑战赛上的角逐。今日,大会主会议正式开始,此届大会的最佳论文、最佳学生论文等奖项也于刚刚揭晓。

ICCV 的全称是 IEEE International Conference on Computer Vision,即国际计算机视觉大会,由 IEEE 主办,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。在 CCF 版 AI 顶会和期刊列表以及今年 9 月份清华提出的「计算机科学推荐学术会议和期刊列表」中,ICCV 均属于 A 类顶级会议,在业内影响极大。

今年的 ICCV 于 10 月 27 日-11 月 2 日在韩国首尔召开,大会主席由首尔大学电子与计算机工程系教授 Kyoung Mu Lee、伊利诺伊大学香槟分校计算机科学教授 David Forsyth、苏黎世联邦理工学院计算机科学系视觉计算学院教授 Marc Pollefeys、商汤科技创始人及香港中文大学教授汤晓鸥联合担任。

在主会议开幕式上,大会官方介绍了今年大会的论文接收、参会人员等信息,同时也公布了今年大会的获奖论文。

据介绍,今年的参会人数高达 7501 人,是上一届的 2.4 倍。其中,来自中国的参会人数高达 1264 人,仅次于举办地韩国(2964)。

而在论文方面,ICCV 2019 共收到 4303 篇论文,是上一届大会 ICCV 2017 论文投稿数量(2143)的 2 倍以上。最终大会接收了 1075 篇论文,接收率为 25.02%,其中 200 篇为 oral 论文(4.6% 接收率)。

值得一提的是,今年 ICCV 接收论文中,中国论文量最多,高达 350 多篇,第二名为美国,其次为德国、韩国。

介绍完大会基本信息,接下来就是今年大会的获奖论文了,今年 ICCV 的最佳论文等奖项一一揭晓。

最佳论文-马尔奖

马尔奖因计算神经学创始人 David C. Marr 而得名,是计算机视觉研究领域的最高荣誉之一。这一次,获得 ICCV2019 马尔奖的论文为《SinGAN:Learning a Generative Model From a Single Natural Image》,论文作者分别为来自以色列理工学院的 Tamar Rott Shaham 和 Tomer Michaeli,以及谷歌的 Tali Dekei。

论文标题:SinGAN:Learning a Generative Model From a Single Natural Image

  • 作者:Tamar Rott Shaham、Tali Dekei、Tomer Michaeli

  • 论文链接:http://openaccess.thecvf.com/content_ICCV_2019/papers/Shaham_SinGAN_Learning_a_Generative_Model_From_a_Single_Natural_Image_ICCV_2019_paper.pdf

  • 实现地址:https://github.com/tamarott/SinGAN

在这篇论文中,研究者介绍了一种无监督的生成模型 SinGAN,它以一种无条件约束的方式从单张自然图像中学习知识。经过训练,研究者的模型能捕捉图像块(patch)的内部分布,从而生成高质量、多样化的样本,并承载与训练图像相同的视觉内容。

SinGAN 包含一个全卷积金字塔 GAN,金字塔的每一层负责学习不同比例的图像块分布。这样就能生成具有任意大小和横纵比的新样本,这种生成样本明显具有可变性,但同时又能保持真实图像的全局结构与精细纹理。与之前的单图像 GAN 相比,研究者的方法不仅能生成纹理图像,同时它还以一种无条件约束的方式生成。

图 1:SinGAN 通过使用多尺度对抗训练方案,从多种尺度学习了图像块信息。这样一来,模型就可以生成新的真实图像样本,其中在创建新的目标属性和结构的同时还保留了原始的图像块分布信息。如上展示了不同尺度图像的生成效果。

图 4:SinGAN 的多尺度生成流程,模型由 GAN 的一种金字塔方案组成,每一层都是一个生成对抗网络,它们从下到上学习着不同尺度的图像生成效果。SinGAN 的训练和推断过程都是从粗粒度到细粒度的方向进行。

研究者在最后还表明,SinGAN 生成的图像经常被人类弄混,它们与真实图像没什么差别。

最佳学生论文奖

ICCV 2019 最佳学生论文奖由《PLMP-Point-Line Minimal Problems in Complete Multi-View Visibility》摘得,论文作者分别来自佐治亚理工学院(Georgia Tech)、瑞典皇家理工学院(KTH)以及捷克理工大学(Czech Technical University in Prague)。

论文标题:PLMP-Point-Line Minimal Problems in Complete Multi-View Visibility

  • 作者:Timothy Duff、Kathlen Kohn、Anton Leykin、Tomas Pajdla

  • 论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Duff_PLMP_-_Point-Line_Minimal_Problems_in_Complete_Multi-View_Visibility_ICCV_2019_paper.pdf

  • 实现地址:https://github.com/timduff35/PLMP

在这篇论文中,研究者通过透视相机观察到的点线一般排列,提出了所有极小值问题的完整分类,其中透视相机是经过校准的。研究者证明,对于超过 6 个相机、5 个点和 6 条线的情况,其总共只有 30 个极小值问题,不存在其它情况。

研究者展示了一系列检测极小值的测试,它们从对自由度进行计数开始,并结束于对代表性样本的完全符号化与数值化的验证。对于所发现的所有极小值问题,研究者展示了它们的代数「程度」,即解的数量,这一指标度量了极小值问题的固有难度。此外,这种代数程度还展示了问题的难度如何随视图的增加而增长。

重要的是,一些新的极小值问题有非常小的代数程度,因此它们在图像匹配和三维重建上能得到很好的应用。

图 1:第一行红色的点和蓝色的线会独立地被检测到,且点与线的排列也是独立检测的。第二行展示了一些点线排列示例,它们提供了新的极小值问题。

最佳论文荣誉提名奖

最佳论文荣誉提名奖中共有两篇论文获奖,其中一篇的作者是威斯康辛大学-麦迪逊分校的 Anant Gupta、Atul Ingle、Mohit Gupta。而另一篇论文是来自以色列特拉维夫大学的 Oron Ashual 和 Lior Wolf 两位研究者完成的。

论文标题:Asynchronous Single-Photon 3D Image

  • 作者:Anant Gupta、Atul Ingle、Mohit Gupta

  • 论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Gupta_Asynchronous_Single-Photon_3D_Imaging_ICCV_2019_paper.pdf

光电探测雪崩二极管(Single-photon avalanche diode:SPAD)在飞行时间(time-of-flight:ToF)的深度距离相关的研究中变得受欢迎了,因为这种类型的摄像头可以在皮秒内捕捉并处理单个图像。然而,环境光(如阳光)可能使得基于 SPAD 的三维摄像头发生问题,在实测波形上造成严重的非线性扭曲(积压),使得深度信息严重错误。

本文中,研究者提出了一种异步单光子三维成像技术,使用一种数据获取技术减缓积压问题。在获得数据的过程中,异步获取技术暂时偏离 SPAD 评价窗口,并通过预定义的激光周期或随机偏移量进行补偿。

研究者对于积压产生的扭曲问题这样考虑:通过选择一系列补偿信息,可以涵盖整个深度距离。研究者开发了一个泛化的图像构建模型,并进行了理论分析,用于探索异步获取方案的空间,并设计高性能的方案。

图 1:单光子摄像头和 3D 成像示意。(a)一个单光子摄像头像素对于单个光子敏感,可以在捕捉光子达到的时间并在皮秒内进行处理。(b)高敏感性和分辨率使得单光子摄像头在很多应用上有实际价值。(c)一个基于飞行时间的单光子三维摄像头由两部分组成:一个脉冲式激光和一个单光子检测器,可以给返回的光子计时。(d)单光子摄像头能够提供非常高的深度分辨率,即使距离很长。

研究者称,其模拟和实验中结果显示,他们的方法在一系列成像场景中和 SOTA 相比显著提升了深度的准确性,包括有着高强度环境光的场景下。

论文标题:Specifying Object Attributes and Relations in Interactive Scene Generation

  • 作者:Oron Ashual、Lior Wolf

  • 论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Ashual_Specifying_Object_Attributes_and_Relations_in_Interactive_Scene_Generation_ICCV_2019_paper.pdf

  • 开源地址:https://github.com/ashual/scene_generation

在本文中,研究者提出了一种从输入的场景图中生成图像的方法。这一方法可分为两个方面,分别为布局嵌入和外观嵌入。这种双嵌入的方法使得生成的图像更好地和场景图匹配、有着更好的图像质量、并支持更复杂的场景图。此外,嵌入方法支持从每个场景图中生成多个且不同的图像,也可以进一步由用户控制。研究者在论文中展示了两种针对每个目标进行的控制:(i)从其他图像中引入新的元素;(ii)通过选择典型的外观,然后探索目标空间。研究者的代码目前已开源。

图 1:一个生成图像过程的例子。顶行为用户界面的布局展示板,用户可以在此安排需要的目标(如安排天空、动物等生成图像的元素)。第二行是从这一布局中自动获得的场景图。第三行是根据场景图创建的布局图。底层一行是生成的图像。

图 2:研究者提出的网络架构。包括子图网络 G、M、B、A、R,以及创建布局张量 t 的流程。

PAMI TC 奖

PAMI 是 IEEE 旗下的期刊,是模式识别和机器学习领域最重要的学术性汇刊之一,有着很高的影响因子和排名。今年 ICCV 上的 PAMI 奖包含四大奖项,分别是 Helmholtz 奖、Everingham 奖、Azriel Rosenfeld 终身成就奖和杰出研究者奖。

Helmholtz 奖

Helmholtz 奖旨在奖励对计算机视觉领域做出重要贡献的工作,颁发对象是十年前对计算机视觉领域产生重大影响的论文。奖项名称来自 19 世纪的物理、生理学家 Hermann von Helmholtz。

今年的 Helmholtz 奖颁给了两篇论文——《Building Rome in a Day》和《Attribute and Simile Classifiers for Face Verification》。

《Building Rome in a Day》是华盛顿大学、康奈尔大学和微软的联合研究项目,旨在通过从 Flickr.com 上下载的所有与罗马相关的图像来重建罗马这座城市。他们要设计一个并行分布式系统,匹配这些图像以找到共同点,并使用这些信息来计算城市的三维结构和摄像头的位置。实验结果表明,在一个拥有 500 个计算核心的集群中,他们可以在不到一天的时间内重建包含 15 万张图像的城市。

《Attribute and Simile Classifiers for Face Verification》是哥伦比亚大学的一项研究。在这篇论文中,研究者提出了两种人脸验证的方法——「attribute」分类器和「simile」分类器。二者都不需要昂贵的图像对对齐。与当时的最佳分类器相比,错误率分别降低了 23.92% 和 26.34%,合并后的错误率降低了 31.68%。

Everingham 奖 

Everingham 奖的设立初衷是纪念计算机视觉领域专家 Mark Everingham 并激励后来者在计算机视觉领域做出更多贡献。颁奖对象包括为计算机视觉社区其他成员做出巨大贡献的无私研究者或研究团队。

本次获得 Everingham 奖项的分别是亚马逊杰出科学家及研究主管 Gerard Medioni 和「Labeled Faces in the Wild」(LFW)人脸数据集的团队,包括 Erik Learened-Miller、Gary B.Huang、Tamara Berg 等人。

Gerard Medioni 因其几十年来为 CVPR&ICCV 大会所做出的卓越贡献而获此荣誉,他还发起了用于组织大会和研讨会的统一注册系统,此外他也是计算机视觉基金会的联合创始人,其研究范围涵盖了计算机领域的广泛议题,例如边缘检测、立体和运动分析、形状推断和描述以及系统集成等。

LFW 团队因 2007 年以来对 LFW 数据集和基准的生成及维护等贡献而获此荣誉,他们的工作有力地推动了在不受控制的现实世界中进行人脸识别的研究进展。

Azriel Rosenfeld 终身成就奖

该奖项是为了纪念已故的计算机科学家和数学家 Azriel Rosenfeld 教授,奖励在长期职业生涯中为计算机视觉领域作出突出贡献的杰出研究者。

今年的 Azriel Rosenfeld 终身成就奖颁给了视觉领域的专家教授 Shimon Ullman。

Shimon Ullman 现任以色列魏茨曼科学院(The Weizmann Institute of Science)计算机科学与应用数学系主任和计算机科学 Samy 和 Ruth Cohn 教授。他的主要研究领域包括人类视觉系统对视觉信息的处理以及计算机视觉等。这项研究的目的在于了解人类自身视觉系统的运作方式以及如何构建具有视觉功能的人工系统,例如如何为残障人士提供帮助等。2015 年,他荣获了以色列计算机科学奖;2016 年成为美国人文与科学院(American Academy of Arts and Sciences)成员。

杰出研究者奖

基于主要研究贡献及对其他研究的激发影响等考量原则,杰出研究者奖旨在奖励对计算机视觉发展作出重大贡献的研究者。今年的杰出研究者奖由 William T. Freeman 和 Shree Nayar 两位教授摘得。

Freeman 是麻省理工学院电气工程与计算机科学系(EECS)的 Thomas 和 Gerd Perkins 教授,他的研究重点包括运动再现、计算机摄影和视觉学习等方面,并拥有 30 多项专利;他先后在 1997 年、2006 年、2009 年和 2012 年的计算机视觉或机器学习会议上获得优秀论文奖,并于 1990 年、1995 年和 2005 年获得论文的「时间检验奖」(Test-of-time Award);他还积极参加计算机视觉、图形和机器学习相关会议,曾担任 ICCV 2005 和 CVPR 2013 的程序委员会共同主席。

Shree Nayar 是哥伦比亚大学计算机科学系教授,其研究领域集中在计算成像、计算机视觉、机器人、图像处理和人机交互等。此外,他还是哥伦比亚大学计算机视觉实验室(Columbia Vision Laboratory,CAVE)的负责人,该实验室主要开发先进的计算机视觉系统。他曾获得 ICCV 1990、 ICPR 1994、CVPR 1994、ICCV 1995、CVPR 2000 和 CVPR 2004 的最佳论文奖。2008 年入选美国国家工程院。

ICCV 2019 的中国力量

在今年的 ICCV 上,中国高校和企业的力量不可忽视。

在投稿阶段,ICCV 2019 官方推特列出了部分投稿单位排名。其中,中科院、清华、华为、百度等高校个企业名列前茅。中科院和清华更是以 237 和 175 篇的论文投稿数量遥遥领先。

在接收结果出来之后,商汤、华为等企业也在第一时间公布了自己的论文被接收情况。其中最亮眼的要数商汤科技,有 57 篇论文入选,其中口头报告论文有 11 篇,主题包括面向目标检测的深度网络基础算子、基于插值卷积的点云处理主干网络等。同时,在 ICCV 2019 的诸多竞赛上,商汤及其联合实验室斩获 13 项世界冠军,包括 OpenImage 物体检测、实例分割赛道冠军等。

华为诺亚方舟实验室在本届的 ICCV 大会中也有不俗的表现,在本届大会上发表(或联合发表)了 19 篇论文,其中两篇工作为口头报告。华为的接收论文涉及计算机视觉的各个领域,覆盖了从底层视觉、中层表示学习到高层语义识别的视觉任务。此外,华为还是今年 ICCV 会议的铂金赞助商。

腾讯优图有 13 篇论文入选本次会议,其中 3 篇被选做口头报告,涉及 2D 图像多视图生成、人脸照片图像转换等多个主题。

作为计算机视觉领域创业公司独角兽,旷视科技今年有 11 篇论文入选,涉及目标检测、行人搜索、模型压缩、文本识别等多个主题。在比赛方面,旷世拿下了今年拿下 5 项任务冠军,包括 COCO 物体检测(Detection)、人体关键点(Keypoint)和全景分割(Panoptic)三项第一,Wider Challenge 2019 行人检测冠军和 VOS 2019 视频对象分割冠军。此外,旷世还获得了 COCO 今年新设立的 Best Paper Award。

以上,是机器之心了解到的公司的论文接收情况。除此之外,百度阿里巴巴等国内企业也有多篇论文入选,更多内容可以关注机器之心 ICCV 网站专题。

理论商汤科技旷视科技ICCV 2019
相关数据
商汤科技机构

商汤科技成立于 2014 年,专注于计算机视觉和深度学习的原创技术,是中国领先的人工智能头部公司,估值超过 45 亿美金。以「坚持原创,让 AI 引领人类进步」为使命,商汤科技建立了国内顶级的自主研发的深度学习超算中心,并成为中国一流的人工智能算法供应商。商汤科技不仅在技术实力上领跑行业,商业营收亦领先同行业,在多个垂直领域的市场占有率居首位。目前,商汤科技已与国内外多个行业的 400 多家领军企业建立合作,包括 Qualcomm、英伟达、本田、中国移动、银联、万达、苏宁、海航、中央网信办、华为、小米、OPPO、vivo、微博、科大讯飞等知名企业及政府机构,涵盖安防、金融、智能手机、移动互联网、汽车、智慧零售、机器人等诸多行业,为其提供基于人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等技术的完整解决方案。

www.sensetime.com
汤晓鸥人物

汤晓鸥,现任香港中文大学信息工程系系主任,兼任中国科学院深圳先进技术研究院副院长。中央组织部“千人计划”入选者,全球人脸识别技术的“开拓者”和“探路者”,商汤科技联合创始人。2014年3月,汤晓鸥团队发布研究成果,基于原创的人脸识别算法,准确率达到98.52%,首次超越人眼识别能力(97.53%)。

相关技术
边缘检测技术

边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括(i)深度上的不连续、(ii)表面方向不连续、(iii)物质属性变化和(iv)场景照明变化。 边缘检测是图像处理和计算机视觉中,尤其是特征检测中的一个研究领域。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
旷视机构

旷视科技是以人工智能技术为核心的物联网解决方案提供商,致力于用非凡科技为客户和社会创造最大价值。基于自主原创的AI技术体系,旷视赋能手机、摄像头、机器人等感知设备,让“机器看懂世界”,并通过软硬结合的解决方案构建个人IoT、公共IoT、商业IoT三大物联网络,助力行业实现降本增效,提升客户商业效益和人们生活品质。旷视科技是世界最早一批用深度学习方法实现人脸识别规模化商用的人工智能企业之一,旗下拥有全球领先的人脸识别开放平台Face++和第三方人脸身份验证平台FaceID,并已在多个垂直领域推出了包括人脸识别支付、人脸识别解锁、全帧智能抓拍机在内的多个具有开创性意义的AI产品。 旷视科技在行业的领先地位源于对核心技术持之以恒的创新。作为中国人工智能原创技术企业代表之一,旷视拥有国内外在申及授权专利900余件,并代表行业领先技术提供方参与了19项人工智能国家及行业标准制定。旷视在各项国际人工智能顶级竞赛中多次击败Google、Facebook、Microsoft等知名企业,揽获25项世界技术评测第一,在ECCV2018的COCO、Mapillary竞赛中,旷视独揽4冠,刷新了中国AI技术的世界新高度。旷视科技取得的成绩获得了诸多认可。2014年,旷视被认定为国家级高新技术企业;2015年,旷视被认定为中关村高新技术企业;2016年11月,旷视入选中关村前沿科技企业;2017年3月,旷视被科技部评为“独角兽”企业,并位列人工智能企业首位;2017年5月,旷视核心人脸识别技术被美国著名科技评论杂志《麻省理工科技评论》评定为2017全球十大突破技术,同时旷视入榜“全球最聪明公司”排名第11位;2017年7月,旷视受邀在国家政府半年经济会议中向李克强总理做企业创新汇报;2017年12月,旷视产业级的人工智能技术入选世界互联网领先科技成果;2018年,旷视入选国家知识产权示范企业,获批全国博士后科研工作站一级站点,并承担国家重点研发计划“变革性技术关键科学问题”重点专项核心课题。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

三维重建技术

三维重建是指利用二维投影或影像恢复物体三维信息(形状等)的数学过程和计算机技术。

暂无评论
暂无评论~