机器之心编辑部报道

CVPR 2020华人一作包揽最佳论文、最佳学生论文,中国作者占39%,清华高居第一

在刚刚开幕的 CVPR 2020 上,最佳论文、最佳学生论文等奖项悉数公布,来自牛津大学的吴尚哲等人获得了最佳论文奖,本科毕业于上海交通大学、现为西蒙弗雷泽大学博士一年级学生 Zhiqin Chen 等人获得最佳学生论文。

今天,计算机视觉模式识别顶级会议 CVPR 2020 在全球线上开幕了。

虽然今年改为了线上,但全球 CV 社区依然在关注这个顶会的优质内容以及最佳论文等奖项。刚刚,本届大会的最佳论文、最佳学生论文等奖项公布。此外,大会官方也对外介绍了今年的接收论文、参会人数、热门研究主题等数据。

首先,在论文方面,本届 CVPR 主会议共收到 6656 篇论文投稿,相比去年增加了超过 20%,为了处理如此多的论文,大会共招募了 3664 名评审,以及 198 名领域主席。最终共有 1470 篇论文被接收,录用率约 22%,创下十年以来的最低记录——去年的录取比例是 25%。

在这些接收论文中,国内企业和机构贡献不小。

据大会公布的数据,今年参与 CVPR 论文的作者数量高达 16955 位。在所有论文作者中,来自中国的作者比例达 39.2%,高居第一。在论文作者所属机构排名中,来自清华的作者高达 340 位,位列第一,且前 10 个机构中国高校占据了 7 席,包括上海交通大学、北京大学、浙江大学、中科大、北航、西安电子科技大学。

可以说,在 CV 领域,华人的力量已经占据半壁江山。

在参会人数上,去年的 CVPR 2019 吸引了来自 68 个国家和地区的 9200 人参会,今年转战线上的大会让人们省去了参会费用和行程住宿,不过即使是线上参会也让很多人的安排受到了影响,今年的现场参会人数为 7000 人。

除了论文与参会数据,大会官方也统计了今年接收论文的主题:识别领域依然是当前最热门的主题,迁移 / low-shot / 半监督 / 无监督学习次之。我们所熟知的图像与视频合成、3D 等主题也依然火热。

接下来,就是今天的重头戏。会议一开始,大会就颁发了今年的所有奖项。来自牛津大学的吴尚哲、Christian Rupprecht、Andera Vedaldi 获得了最佳论文奖,来自加拿大西蒙弗雷泽大学和谷歌的 Zhiqin Chen 等人获得了最佳学生论文奖。而最佳学生论文荣誉提名奖则授予了来自马普所和 Facebook 的研究者。


牛津大学获最佳论文奖

今年的最佳论文奖项由牛津大学的研究者获得,获奖论文是《Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild》。

  • 论文链接:https://arxiv.org/abs/1911.11130

  • 代码地址:https://github.com/elliottwu/unsup3d

  • demo 地址:http://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of-probably-symmetric-deformable-3d-objects-from-images-in-the-wild.html


最佳论文主要内容

这项研究提出了一种基于原始单目图像学习 3D 可变形物体类别的新方法,且无需外部监督。

该方法基于一个自编码器,它将每张输入图像分解为深度、反射率、视点和光照(将这四个组件结合起来即可重建输入图像)。该模型在训练过程中仅利用重建损失,未使用任何外部监督。模型结构如下所示:

为了在不使用监督信号的前提下将这些组件分解开,研究人员利用了很多物体类别所具备的属性——对称结构。该研究表明,对光照进行推理可以帮助我们利用物体的底层对称性,即便由于阴影等因素造成物体外观看起来并不对称也没有关系。

此外,该研究还使用模型其他组件以端到端的方式学得对称概率图,并借助对该概率图的预测对可能并不对称的物体进行建模。

实验表明,该方法可以准确恢复单目图像中人脸、猫脸和车辆的 3D 形状,且无需任何监督或先验形状模型。相比于利用 2D 图像对应监督的另一种方法,该方法在基准数据集上的性能更加优越。

论文一作简介

论文的第一作者吴尚哲是香港科技大学 2014 级本科生,导师为邓智强和戴宇榮,主要研究图像转换 / 生成,并曾在商汤、腾讯优图和谷歌实习。2018 年完成本科学业后,22 岁的吴尚哲同时收到牛津大学、苏黎世联邦理工学院、洛桑联邦理工学院的博士项目全额奖学金 Offer,最终选择加入牛津大学视觉几何组,师从欧洲计算机科学家第一人 Andrew Zisserman 及其弟子 Andrea Vedaldi 深耕计算机视觉领域,目前就读博士二年级。

最佳学生论文奖

今年的最佳学生论文奖由来自西蒙弗雷泽大学和谷歌研究院的三位研究者摘得,获奖论文是《BSP-Net: Generating Compact Meshes via Binary Space Partitioning》。

  • 论文链接:https://arxiv.org/pdf/1911.06971.pdf

  • 代码地址:https://github.com/czq142857/BSP-NET-original

最佳学生论文讲了什么

多边形网格在数字 3D 领域中无处不在,但它们在深度学习革命中仅扮演了次要角色。学习形状生成模型的领先方法依赖于隐函数,并且只能在经过昂贵的等值曲面处理过程后才能生成网格。为了克服这些挑战,该研究受计算机图形学中经典空间数据结构 Binary Space Partitioning(BSP)的启发,来促进 3D 学习。

BSP 的核心部分是对空间进行递归细分以获得凸集。利用这一属性,研究者设计了 BSP-Net,该网络可以通过凸分解来学习表示 3D 形状。重要的是,BSPNet 以无监督方式学得,因为训练过程中不需要凸形分解。

该网络的训练目的是,为使用基于一组平面构建的 BSPtree 获得的一组凸面重构形状。经过 BSPNet 推断的凸面可被轻松提取以形成多边形网格,而无需进行等值曲面处理。生成的网格是紧凑的(即低多边形),非常适合表示尖锐的几何形状。此外,它们一定是水密网格,并且可以轻松参数化。该研究还表明,BSP-Net 的重构质量和 SOTA 方法相比具备竞争力,且它使用的原语要少得多。

论文一作简介

论文一作 Zhiqin Chen 本科毕业于上海交通大学,现为西蒙弗雷泽大学博士一年级学生。他的主要研究兴趣是计算机图形学,专攻几何建模和机器学习

最佳学生论文荣誉提名奖

本次获得最佳学生论文荣誉提名的是德国马普所和 Facebook Reality Labs 合作的文章《DeepCap: Monocular Human Performance Capture Using Weak Supervision》,第一作者为马普所的 Marc Habermann。

论文链接:https://arxiv.org/pdf/2003.08325.pdf

这篇论文讲了什么

人体表现的捕捉是一个非常重要的计算机视觉课题,并在电影制作和虚拟 / 增强现实领域有着诸多应用。以往的很多表现捕捉方法要么需要昂贵的多视图设置,要么无法通过帧到帧对应恢复密集的时空一致性几何结构。

因此,在这篇论文中,研究者提出了一种新颖的单目密集人体表现捕捉深度学习方法。该方法采用一种基于多视图监督的弱监督方法进行训练,并且完全不需要利用 3D ground truth 标注来训练数据。此外,网络架构基于的两个独立网络将任务分解为姿态估计和非刚性表面变形步骤。大量的定性和定量评估表明,研究者提出的方法在质量和鲁棒性两方面优于当前 SOTA 方法。

该方法的流程图如下所示,其中以单个分割图像作为输入。首先,通过将稀疏多视图 2D 关节检测作为弱监督,研究者训练姿态网络 PoseNet 来预测关节角度和相机相对旋转;其次,研究者训练变形网络 DefNet 来返回嵌入图旋转和平移参数,从而考虑到非刚性变形。此外,为了训练变形网络 DefNet,研究者将多视图 2D 关节检测和剪影用于监督。

该方法的整体流程图。

下图展示了该方法在各种服装款式、姿态和环境的野外测试序列(in-the-wild sequence)上的定性结果。由效果图可见,研究者的重建不仅能够精准地与输入图像重合,而且在任意 3D 视图下看起来也可行。

该方法的效果展示。

论文作者之一 Weipeng Xu 是匹兹堡 Facebook Reality Labs 的研究科学家,博士后阶段曾在德国马普所从事图形及视觉方面的研究。Weipeng Xu 分别于 2009 年和 2016 年在北京理工大学获得学士和博士学位,2013 年到 2015 年期间,在 NICTA 和澳大利亚国立大学作为长期访问学生学习。他的研究兴趣包括虚拟人物角色、人体姿势预估和视觉与图形的机器学习等领域。

 Thomas S. Huang 纪念奖与经典论文奖

为了纪念今年四月底去世的 Thomas S. Huang(黄煦涛)教授,PAMITC 今年批准设立 Thomas S. Huang 纪念奖,从 2021 年开始颁发。

黄教授是中国工程院外籍院士,中国科学院外籍院士,美国国家工程院院士,美籍华裔信息学家,美国伊利诺依大学(香槟分校)Beckman 研究院图象实验室主任,于 2020 年 4 月 25 日夜(美国东部时间)在美国印第安纳州逝世,享年 84 岁。

黄煦涛教授在图象处理、模式识别计算机视觉等方面有不少原创性的研究成果,开拓了新的研究领域。此奖项的设立正是为了缅怀黄教授对计算机视觉领域的突出贡献。

此外,今年的经典论文奖(Longuet-Higgins 奖)由布朗大学、TU Darmstadt 的 Deqing Sun、Stefan Roth 和 Michael J. Black 三人在 CVPR 2010 发表的《The secrets of optical flow estimation and their principles》获得,这是一篇有关光流原理的文章。如今 Deqing Sun 已成为谷歌的一名研究科学家。与此同时,Deqing Sun 还获得了大会的 PAMI 年轻研究人员奖。

由于新冠疫情,原定于在美国西雅图举办的第三十三届大会 CVPR 2020 于今年 5 月宣布改为线上举行。虽然无法亲临现场与人零距离互动了,但虚拟会议的形式也能带来一些好处,比如以最放松的姿态在沙发上坐着,同时关注不同房间的直播演讲。当然,对于很多参会人员来说还是不够「放松」,因为本来的一周参会时间现在彻底没有了。

对于论文宣讲者来说,他们也有了在家进行在线讲演的机会,如果想提问,可以使用 zoom。

在今天大会的开场,微软 CEO 萨提亚 · 纳德拉作为嘉宾与沈向洋展开了互动。作为科技巨头,微软的研究近二十多年来都有研究在 CVPR 大会出现。


除了焦点论文之外,如果你对论文的实现有兴趣,已有国内开发者在 GitHub 上整理了本届大会的开源项目合集供参考:https://github.com/amusi/CVPR2020-Code
入门CVPR 2020
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

暂无评论
暂无评论~