Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

同济、阿里获CVPR最佳学生论文,李飞飞获黄煦涛奖,近6000人线下参会

刚刚,CVPR 2022 正式公布了最佳论文、最佳学生论文等奖项。来自 ETH Zurich、华盛顿大学、佐治亚理工学院、捷克理工大学多个机构的研究者共同获得了最佳论文奖,来自阿里巴巴和同济大学的研究者获得了最佳学生论文奖。此外,斯坦福大学教授李飞飞获得了本次大会的 Thomas S. Huang (黄煦涛)纪念奖。


2022 年,CVPR 大会的投稿量达到 8161 份,相比 2021 年度的 7093 份提交增长了 15%。其中 44.59% 的作者来自中国,排在第二名的是美国,占据 20.65%。

图源:推特用户 @Jared Heinly。

经过三个多月的评审工作,大会最终共有 2064 篇论文被接收,接收率为 25.28%,高于去年的 23.6%。其中有 342 份被选为 Oral 论文,1721 份被选为 Poster 论文。此外,今年的 review 数量为 25804,rebuttal 数量为 5884。

图源:推特用户 @raven。

其中,国内有大量论文被接收。如据机器之心了解,商汤科技及联合实验室共有 71 篇论文被大会接收,其中近四分之一被录用为 Oral。

自新冠疫情流行以来,今年 CVPR 还是首次线下举办。据主办方统计,截至大会开幕,共有 9981 人注册参会,其中 5641 人现场参会,4340 人以线上方式参会。

今年的大会特别纪念了孙剑博士:


在主会议的最开始,CVPR 2022 即公布了本次大会的全部奖项。来自 ETH Zurich、华盛顿大学、佐治亚理工学院、捷克理工大学多个机构的研究者共同获得了最佳论文奖,来自阿里巴巴同济大学的研究者获得了最佳学生论文奖。此外,最佳论文提名和最佳学生论文提名的奖项分别由 CMU 以及哈佛大学、谷歌研究院获得。

最佳论文



  • 机构:ETH Zurich、华盛顿大学、佐治亚理工学院、捷克理工大学
  • 论文地址:https://arxiv.org/abs/2112.03424

论文摘要:该研究提出了一种在 RANSAC 框架中解决困难的几何优化问题的方法。最小化问题源于将原始几何优化问题松弛化(relax)为具有许多虚假解决方案的最小问题。该研究提出的方法避免了计算大量虚假解决方案。研究者设计了一种学习策略,用于选择初始问题 - 解决方案对以用数值方法继续解决原问题。该研究通过创建一个 RANSAC 求解器来演示所提方法,该求解器通过使用每个视图中的 4 个点进行最小松弛化来计算 3 个校准相机的相对位姿。平均而言,该方法可以在 70 μs 内解决一个原始问题。此外,该研究还针对校准相机的相对位姿这一问题进行了基准测试和研究。

最佳论文提名

今年的最佳论文提名由 CMU 的研究《Dual-Shutter Optical Vibration Sensing》获得。



  • 机构:CMU
  • 论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf

论文摘要:视觉振动测量是一种非常有用的工具,可用于远程捕捉音频、材料物理属性、人体心率等。虽然视觉上可观察的振动可以通过高速相机直接捕捉,但通过将激光束照射振动表面所产生的散斑图案的位移成像,可以从光学上放大微小且不易察觉的物体振动。

在本文中,研究者提出了一种在高速(高达 63kHz)下同时检测多个场景源振动的新方法,该方法使用了额定工作频率仅为 130Hz 的传感器。他们的方法使用两个分别配备滚动和全局快门传感器的相机来同时捕捉场景,其中滚动快门相机捕捉到对高速物体振动进行编码的失真散斑图像,全局快门相机捕捉散斑图案的未失真参考图像,从而有助于对源振动进行解码。最后,研究者通过捕捉音频源(如扬声器、人声和乐器)引起的振动并分析音叉的振动模式,展示了他们的方法。

研究者用一种新颖的方法「看到」(seeing)声音。

最佳学生论文

今年获得最佳学生论文奖项的是《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》,作者来自阿里巴巴同济大学



  • 机构:阿里巴巴同济大学
  • 论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_EPro-PnP_Generalized_End-to-End_Probabilistic_Perspective-N-Points_for_Monocular_Object_Pose_Estimation_CVPR_2022_paper.pdf

论文摘要:利用透视点(PnP)基数从单个 RGB 图像中定位 3D 物体是计算机视觉领域一个长期存在的问题。在端到端深度学习的驱动下,近期的研究建议将 PnP 解释为一个可微分层,如此 2D-3D 点对应就可以部分地通过反向传播梯度 w.r.t. 物体姿态来学习。然而,从零开始学习整套不受限的 2D-3D 点在现有的方法下很难收敛,因为确定性的姿态本质上是不可微的。

这篇论文提出了一种用于普遍端到端姿态估计的概率 PnP 层——EPro-PnP(end-to-end probabilistic PnP),它在 SE 流形上输出姿态的分布,实质地将分类 Softmax 带入连续域。2D-3D 坐标和相应的权值作为中间变量,通过最小化预测姿态与目标姿态分布之间的 KL 散度来学习。其基本原理统一了现有的方法,类似于注意力机制。EPro-PnP 的性能明显优于其他基准,缩小了基于 PnP 的方法与基于 LineMOD 6DoF 的姿态估计以及 nuScenes 3D 目标检测基准的特定任务方法之间的差距。

EPro-PnP 方法概览。

最佳学生论文提名

今年的最佳学生论文提名由哈佛大学和谷歌研究院的论文《Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields》获得。



  • 机构:哈佛大学、谷歌研究院
  • 论文地址:https://arxiv.org/pdf/2112.03907.pdf

论文摘要:神经辐射场是一种流行的视图合成技术,它将场景表示为连续的体积函数,由多层感知器参数化,多层感知器提供每个位置的体积密度和与视图相关的散发辐射。虽然基于 NeRF 的方法擅长表征平滑变化的外观几何结构,但它们通常无法准确捕捉和再现光泽表面的外观。该研究提出了 Ref-NeRF 来解决这个问题,它将 NeRF 与视图相关的散发辐射的参数化替换为反射辐射的表征,并使用空间变化的场景属性的集合来构造该函数。该研究表明,使用法向量上的正则化器,新模型显著提高了镜面反射的真实性和准确性。此外,该研究还表明该模型对散发辐射的内部表征是可解释的,这对于场景编辑非常有用。

与以往表现最好的神经视图合成模型 mip-NeRF 相比,Ref-NeRF 显著提升了法向量(最上行)和视觉真实性(余下行)。

其他奖项

Longuet-Higgins 奖

Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能(PAMI)技术委员会在每年的 CVPR 颁发的「计算机视觉基础贡献奖」,表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。该奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。

今年的获奖论文为 2012 年发表的《Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite》,当时三位作者中的 Andreas Geiger 和 Philip Lenz 来自卡尔斯鲁厄理工学院, Raquel Urtasun 来自丰田工业大学芝加哥分校。

图源:推特用户 @Kosta Derpanis

论文地址:http://www.cvlibs.net/publications/Geiger2012CVPR.pdf

在本文中,研究者利用他们自己的自动驾驶平台为立体、光流、视觉测程 / SLAM 和 3D 目标检测等任务开发了一个新的具有挑战性的基准。他们的记录平台配备了 4 台高分辨率摄像机、1 台 Velodyne 激光扫描仪和 1 个 SOTA 定位系统,基准则包括 389 个立体和光流图像对、39.2km 长的立体视觉测程序列以及在杂乱场景中捕获的超过 20 万个 3D 目标注释(每张图像最多可见 15 辆车和 30 名行人)。


左上为配备了传感器的记录平台,中上为来自研究者视觉测程基准中的轨迹、右上为视差和光流图、下方为 3D 目标标签。

青年研究者奖

青年研究者奖(Young Researcher Awards)旨在表彰年轻的科学家,鼓励 ta 们继续做出开创性的工作。评选标准是获奖者获得博士学位的年限少于 7 年。

今年获得该奖项的研究者分别是 Bharath Hariharan 和 Olga Russakovsky。

图源:推特用户 @Kosta Derpanis

Bharath Hariharan 为康奈尔大学计算机科学系助理教授,从事计算机视觉机器学习方面的工作,尤其是那些无视大数据标签的重要问题。Hariharan 主要研究方向为将机器学习的进步与计算机视觉、几何和特定领域知识的见解结合起来。

目前,Hariharan 所在团队正在致力于构建一个系统,该系统可以在很少或没有监督的情况下了解数以万计的视觉概念,产生丰富而详细的输出,比如精确的 3D 形状,并对世界进行推理,将这种推理传递给人类。

他在 Google Scholar 上的论文被引量达到 25242,h 指数为 38。

个人主页:http://home.bharathh.info/


Olga Russakovsky 为普林斯顿大学计算机科学系助理教授,致力于开发能够对视觉世界进行推理的人工智能系统。Russakovsky 主要研究方向为计算机视觉人机交互等领域。她的多篇论文被 ECCV、CVPR 等接收。

她在 Google Scholar 上的论文被引量达到 34756,h 指数为 25。

个人主页:https://www.cs.princeton.edu/~olgarus/

Thomas S. Huang 纪念奖

为了纪念去世的 Thomas S. Huang(黄煦涛)教授,PAMITC 奖励委员会去年批准设立 Thomas S. Huang 纪念奖,以表彰在 CV 研究、教育和服务方面被公认为楷模的研究人员。该奖项从 2021 年开始颁发。获奖者需要拿到博士学位至少 7 年,最好处于职业发展中期(不超过 25 年)。

本届 Thomas S. Huang 纪念奖的获奖者是斯坦福大学教授李飞飞

图源:推特用户 @Kosta Derpanis

李飞飞为斯坦福大学计算机科学教授,美国工程院院士,美国国家医学院院士。她的专业领域是计算机视觉认知神经科学。2016 年,李飞飞加入 Google 云端人工智能机器学习的中国中心团队,以 Google Cloud 首席科学家身份任团队负责人之一。2018 年 9 月,她宣布返回斯坦福大学任教,并持续参与斯坦福大学的 AI 议题研究。

李飞飞的工作包括括受认知启发的 AI,机器学习深度学习计算机视觉和 AI + 医疗保健,尤其是用于医疗保健交付的环境智能系统。她还从事认知和计算神经科学方面的工作。她发明了 ImageNet 和 ImageNet Challenge,其中 ImageNet Challenge 是一项重要的大规模数据集和基准测试工作。

她在 Google Scholar 上的论文被引量达到 167561,h 指数为 128。

个人主页:https://profiles.stanford.edu/fei-fei-li
理论李飞飞阿里巴巴同济大学CVPR 2022
相关数据
商汤科技机构

作为人工智能软件公司,商汤科技以“坚持原创,让AI引领人类进步”为使命,“以人工智能实现物理世界和数字世界的连接,促进社会生产力可持续发展,并为人们带来更好的虚实结合生活体验”为愿景,旨在持续引领人工智能前沿研究,持续打造更具拓展性更普惠的人工智能软件平台,推动经济、社会和人类的发展,并持续吸引及培养顶尖人才,共同塑造未来。

http://www.sensetime.com
李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

孙剑人物

孙剑,男,前微软亚研院首席研究员,现任北京旷视科技有限公司(Face++)首席科学家、旷视研究院院长 。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇,两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (ImageNet分类,检测和定位,MS COCO 检测和分割) ,其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

环境智能技术

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
认知神经科学技术

认知神经科学(英语:Cognitive neuroscience)是一门科学学科,旨在探讨认知历程的生物学基础。主要的目标为阐明心理历程的神经机制,也就是大脑的运作如何造就心理或认知功能。认知神经科学为心理学和神经科学的分支,并且横跨众多领域,例如生理心理学、神经科学、认知心理学和神经心理学。认知神经科学以认知科学的理论以及神经心理学、神经科学及计算机模型的实验证据为基础。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

同济大学机构
暂无评论
暂无评论~