本文是机器之心《2021-2022 年度 AI 技术趋势发展报告》中算法理论研究篇章关于机器人领域的顶会观察,点击「机器之心2021-2022年度AI技术趋势报告 」,获取报告。
2021年,人类赖以生存的环境发生着剧烈的变化,计算机视觉领域的研究取得了长足的发展和进步,机器“看”的能力得到了大大提升。我们从顶会的角度进行观察,汇总计算机视觉领域的顶会信息。
技术趋势
传统的图像和视频理解、目标检测等仍然是研究的热门。 在计算机视觉领域,传统的图像和视频理解、目标检测等仍然是研究的热门。以2D/3D目标检测为例, 监督/半监督方法、少样本学习等方法都有所应用。在两个主要会议中,这几个经典领域中论文的研究 主要从不同的应用场景中面临的不同问题、改进方法/模型以及构建更加鲁棒的数据库这些角度入手。
预训练模型的改进得益于算力/数据的优势。 与NLP领域中预训练模型带来的巨大改进不同,计算机视觉领域中虽然也在不断提出和应用算法/模型, 但最终性能的改进主要是归因于数据集的持续升级。纵观顶会的相关论文,没有哪一种技术、算法能够在某一个计算机视觉领域中获得压倒性的优势。更多的优势方法得益于算力/数据的优势。
神经网络架构改进(包括Transformer和GNN)、GAN的应用等仍是主要的方向。深度神经网络、卷积网络带来了计算机视觉领域基础任务的性能突破,GAN 的提出进一步带来了分类和鉴别的性能突破。在2021年会议论文中,神经网络架构改进(包括Transformer和GNN)、GAN的应用等仍是主要的方向。
可解释性、公平、伦理等问题得到更多关注。在计算机视觉领域中,关于可解释性、公平、透明、伦理等问题的文章数量也不少,说明计算机视觉领域的研究人员也开始关注这一问题。
CV领域相对其他领域更关注对抗学习。由于计算机视觉任务极易受到对抗样本的影响,与NLP等应用领域相比,在计算机视觉领域中关于对 抗学习的论文数量也较多。
有大量关注数据库构建的论文。在2021年召开的计算机视觉顶会中,都有大量关注于数据库构建的文章。在一些专门的应用领域,例如3D城市点云、游戏场景、恶意攻击场景等,计算机视觉方法的适用性还依赖于专门的标注数据库的构建。
会议总体情况
CVPR 2021 于6月19日至6月25日以虚拟会议的形式召开。根据大会官方数据,大会一共接收了 7039 篇有效投稿,最终有 1366 篇接收为 poster,295 篇接收为 oral,录取率为23.6%。
CVPR 2021共有83个workshop。主会议共分成12个session,包含1600余篇论文。
ICCV是计算机视觉领域最高级别的会议,会议的论文集代表了计算机视觉领域最新的发展方向和水平。ICCV 2021 于2021年10月11日至17日以虚拟会议的形式召开。根据大会官方数据,本次会议共计收到6236 篇有效提交论文,其中有 1617 篇论文被接收,接收率为25.9%。ICCV是隔年召开的会议,近三届会议的数据对比,整体投稿量大幅上升,远超2019年的4328篇和2017年的2143篇。但整体接收率下降比较明显,2021年的接收率略高于2019年的24.8%,低于2017年的28.98%。
ICCV历年论文情况 | |||
年份 | 投稿数 | 接收数 | 接收率 |
2021 | 6236 | 1617 | 25.90% |
2019 | 4328 | 1075 | 24.80% |
2017 | 2143 | 621 | 28.98% |
奖项情况
CVPR 2021的最佳论文为自德国蒂宾根大学的两位学者的文章《GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields》。
论文出发点。通过引入深度生成模型,能够在高分辨率下进行逼真的图像合成。但是在很多应用场景下,仅仅这样是不够的:内容创作也需要是可控的。虽然最近有几项工作研究了如何分解数据中的潜在变化因素,但它们大多是在二维中操作的,忽略了真实世界的三维特性。此外,只有少数工作考虑到了场景的复合/组合性特征。
思路关键点。这篇获奖论文工作的一项关键性假设是:在生成模型中加入组合式三维场景表征,以使图像合成更加可控。将场景表示为组合生成性神经特征场,使我们能够将一个或多个物体从背景中分离出来,并在不需要额外监督的情况下,从非结构化和未处理的图像集中学习单个物体的形状和外观。将这种场景表示法与神经渲染管道相结合,可以得到一个快速而真实的图像合成模型。
实验结果。正如本文中实验所证明的,本文模型能够分解单个物体,并允许在场景中平移和旋转它们,以及改变摄像机的姿势。
此外,还有两篇文章获得了CVPR 2021最佳论文提名,分别是Xinlei Chen和何恺明的论文《Exploring Simple Siamese Representation Learning》探索简单的连体表征学习和来自明尼苏达大学的Yasamin Jafarian、Hyun Soo Park的论文《Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos》通过观看社交媒体上的舞蹈视频学习穿戴人人体的高保真深度。
在ICCV 2021公布的论文奖项中,来自微软亚洲研究院的研究者获得了 ICCV 2021 马尔奖(最佳论文),第一作者刘泽是中国科学技术大学与微软亚研院联合培养的博士生,研究方向为深度学习与计算机视觉。
论文地址:https://arxiv.org/pdf/2103.14030.pdf
项目地址:https://github.com/microsoft/Swin-Transformer
论文出发点。利用Transformer将语言转换为视觉面临巨大的挑战,主要是由于这两个域之间的差异很大,例如视觉实体尺度有很大的变化,与文本中的字相比,图像中像素分辨率非常高等等。
思路关键点。为了解决域差异问题,本文提出了一种层级(hierarchical)变换器,即通过移位窗口(Shifted windows)计算表征。移位窗口方案将自注意计算限制在非重叠的局部窗口上,同时允许跨窗口连接,从而提高了效率。这种层级结构可以灵活地在各种尺度下建模,并且具有与图像大小相关的线性计算复杂性。本文提出了一种新的视觉转换器,称为Swin Transformer,它可以作为计算机视觉的一种通用主干方法/架构使用。
Swin Transformer架构设计。Swim Transformer的整体架构如下图所示,主要由a、b两部分组成。其中,(a)为 Swin Transformer的结构;(b) 为两个连续的Swin Transformer模块。W-MSA和SW-MSA是多头自注意模块,分别具有常规和移位的窗口配置。
实验结果。Swin Transformer的这些特性使其能够与广泛的视觉任务兼容,包括图像分类(在ImageNet-1K上的Top-1 准确度为87.3 ),以及密集预测任务,例如目标检测(在COCO testdev上的box AP和mask AP分别为 58.7 和51.1 )和语义分割(在ADE20K val上的mIoU为53.5)。Swin Transformer的性能大大超过了以前的技术水平,显示了该方法用于视觉处理相关任务的巨大潜力。此外,作者也证明了层级设计架构和移位窗口方法对所有MLP体系结构都是有益的。
发表论文的机构和作者情况
国内知名机构在CVPR 2021上发表论文数量情况如下表所示。
中国企业 | 论文数目 |
商汤 | 66 |
百度(Baidu) | 22 |
腾讯优图 | 20 |
华为(HUAWEI) | 30 |
在国内知名企业机构中,在CVPR 2021中发表论文数量最多的是商汤科技,共有66篇论文,并且内容涵盖了学术届、产业届,其中还有一篇入选最佳论文候选名单,即三维重建方向的NeuralRecon: Real-Time Coherent 3D Reconstruction From Monocula。
华为诺亚方舟实验室,共有30篇论文,相关论文的研究方向涵盖模型压缩和能耗高效、神经网络搜索、语义理解、底层视觉、自动驾驶、无损数据压缩、可解释性AI等多个方面。百度也有22篇论文,主要涉及图像语义分割、文本视频检索、3D目标检测、风格迁移、视频理解、迁移学习等多个研究方向。腾讯优图则有20篇论文,研究主题涵盖了人脸识别、对抗攻击、时序动作定位、视频动作分割、无监督人脸质量评估等前沿领域。
CVPR 2021录用的1661篇论文共计覆盖5818位从业学者(经过简单的同名作者识别后)。其中,有1位学者有15篇相关论文发布在CVPR 2021,13位学者有2篇相关论文,11位作者有4篇相关论文,总计143位学者被录用的论文数量在5篇以上(含5篇)。详情见下表。
作者 | 组织 | 相关论文数量 |
Jian Sun | MEGVII Technology | 15 |
Feiyue Huang | Youtu Lab, Tencent | 13 |
Dacheng Tao | The University of Sydney | 13 |
Luc Van Gool | Computer Vision Lab, ETH Zurich, Switzerland 、 PSI, KU Leuven, Belgium | 11 |
Chunhua Shen | The University of Adelaide, Australia | 11 |
Chen Change Loy | S-Lab, Nanyang Technological University | 11 |
Chang Xu | The University of Sydney | 11 |
Lei Zhang | The HongKong Polytechnic University, DAMO Academy, Alibaba Group | 10 |
Ling Shao | Inception Institute of Artificial Intelligence | 10 |
Ziwei Liu | S-Lab, Nanyang Technological University | 10 |
Alan Yuille | Johns Hopkins University | 10 |
Jiaya Jia | The Chinese University of Hong Kong、SmartMore | 10 |
Marc Pollefeys | Department of Computer Science, ETH Zurich 、 Microsoft | 9 |
Yunhe Wang | Noah’s Ark Lab, Huawei Technologies:9 | 9 |
Hongsheng Li | CUHK-SenseTime Joint Laboratory, The Chinese University of Hong Kong 、 School of CST, Xidian University | 9 |
CVPR 2021录取论文数量最多的作者是来自旷视科技的首席科学家Jian Sun(孙剑),论文总数达到了15篇。他的主要研究兴趣是计算摄影和基于深度学习的图像理解,他在计算机视觉方向做出过许多经典研究工作,包括深度残差网络(Residual Network)、物体检测Fast-CNN、经典去雾算法等等。近年来,他在旷视科技的工作涉及了图像分割、神经网络处理、物体分割、图像重构等多个领域。他在旷视的主要技术路线一是采用深度神经网络,二是最大程度采用端到端的学习方式,聚焦于计算机视觉技术和这项技术在工业、商业中的实践问题。
此外,腾讯优图实验室的黄飞跃博士和来自悉尼大学的陶大程教授分别有13篇论文录用于CVPR 2021。黄飞跃博士的研究内容包括人脸识别、语音识别等领域的研究进展,CVPR 2021中录用的文章涉及提高人脸识别的公平性、动作定位、图像-图像翻译、视频恢复、目标定位、视频表征学习、字幕制作、全景分割、少样本识别等内容。悉尼大学陶大程教授是机器学习、机器视觉、数据挖掘、图像与多媒体信息处理、视频监控等领域的知名学者,其在CVPR中相关论文的研究内容主要涉及视频超分辨率分析、多目标跟踪、场景分析、3D点云生成、决策蒸馏技术、图像超分辨率分析、生成式自动编码器架构等。
在ICCV 2021中,商汤科技此次斩获累累硕果,共有50篇论文被收录,论文内容涵盖模型量化、三维建模、自动驾驶、机器学习系统决策等多个领域,不仅包括各领域前沿基础研究突破,还直击行业应用痛点。本次腾讯优图实验室共有17篇论文被收录,其中Oral论文2篇,涵盖跨模态检索、分割、行人识别、神经网络、人群计数、车辆识别、物体识别、视频偏好推理、多标签识别等前沿领域。此外,阿里巴巴、京东、网易伏羲、华为等知名机构都有多篇论文收录,同时在ICCV 2021的不同竞赛中获得了不俗成绩。
ICCV 2021录用的1617篇论文共计覆盖6017位从业学者(经过简单的同名作者识别后)。其中,有1位学者有22篇相关论文发布在ICCV 2021,1位学者有18篇相关论文,2位作者有13篇相关论文,总计14位学者被录用的论文数量在9篇以上(含9篇),详情参见下表。
作者 | 组织 | 相关论文数量 |
Luc Van Gool | ETH Zurich | 22 |
Ling Shao | Inception Institute of Artificial Intelligence | 18 |
Xiaodan Liang | Sun Yat-sen University | 13 |
Jiwen Lu | Tsinghua University | 13 |
Jie Zhou | Tsinghua University | 12 |
Christian Theobalt | Max Planck Institute for Informatics, Saarland Informatics Campus | 10 |
Michael J. Black | Max Planck Institute for Intelligent Systems, Tubingen, Germany | 10 |
Hang Xu | Huawei Noah’s Ark Lab | 9 |
Jiaya Jia | The Chinese University of Hong Kong | 9 |
Kate Saenko | Boston University | 9 |
Wanli Ouyang | The University of Sydney | 9 |
Xiaolong Wang | UC San Diego | 9 |
Marc Pollefeys | Department of Computer Science, ETH Zurich、 Microsoft Mixed Reality and AI Lab, Zurich | 9 |
Changhu Wang | ByteDance | 9 |
在ICCV 2021中发表论文数量最多的是来自瑞士苏黎世联邦理工学院(ETH Zurich)的Luc Van Gool。他在ICCV 2021中的文章主要关注的是语义分割、视频中掩模(Mask)的生成和应用等问题。Ling Shao(邵岭 教授)是阿联酋阿布扎比人工智能大学执行校长,他在ICCV 2021中的文章主要关注神经网络架构以及图像显著区域检测的问题。
会议热门主题分析
作为经典的计算机视觉顶会,CVPR的热门主题仍然以计算机视觉相关的各项处理技术为主。在Low-level层面上,包括超分辨率分析、图像恢复、去噪去模糊、图像重建以及去雾处理等,high-level的主题主要涉及图像分类、检测、检索、分割、跟踪、情感分析等。从计算机视觉领域角度分析,过去十几年,上述应用领域就处于持续研究的状态,每年CV相关会议一定会有这些议题,且有研究人员在持续不断的针对这些领域进行改进。以Object Detection为例,本次会议仍有50余篇论文与此直接相关。
从会议论文角度分析,CVPR 2021中也包括大量机器学习技术在计算机视觉中的应用,例如主动学习、小样本/零样本学习、迁移学习、对比学习、推理技术、对抗性样本等。近年来,机器学习技术大大推进了计算机识别和追踪方法的进步,而本次会议中出现了很多利用深度学习技术实现三维重建的文章。
从CVPR 2021的热门主题我们可以看出下面的趋势:
围绕经典问题如遮挡、低质等问题展开讨论的论文依旧保持高产 。由于计算机视觉领域的特殊性,遮挡、低质等问题比较多且情况比较复杂,因此,每年的计算机视觉会议中围绕经典的主题都会有大量的论文。从会议主题来看,CVPR 的论文趋势变化不大。研究主要从不同的应用场景中面临的不同问题、改进方法/模型以及构建更加鲁棒的数据库这些角度入手。
神经网络结构设计是重点讨论主题。以方法/模型为例,深度神经网络、卷积网络带来了计算机视觉领域基础任务的性能突破,GAN 的提出进一步带来了分类和鉴别的性能突破。因此,CVPR 2021中专门有神经网络结构设计的主题,重点介绍Transformer和GNN的改进。而在其它应用主题中,神经网络的改进和应用小样本、元学习、迁移学习、对比学习等机器学习常用算法的文章也非常多。
CV领域性能的改进归因于数据集的持续提升 。但是,与NLP领域中预训练模型带来的巨大改进不同,计算机视觉领域中虽然也在不断提出和应用算法/模型,但最终性能的改进主要是归因于数据集的持续升级。例如,本次会议上具有专门介绍城市规模3D点云、3D漫画面部图、人脸伪造等专门数据集的文章,主要为了解决公开数据集无法应对的特殊场景计算机视觉方法/模型无法有效训练的问题。
ICCV 2021的官网给出了本次大会的热门主题分析。下图根据论文主题之间的相似性分布,给出了论文的可视化分布图。在图中比较接近的论文具有比较相似的摘要。在登录到官网https://iccv2021.thecvf.com/papers-visualizations?filter=titles&search=Detection+and+localization+in+2D+and+3D后,一旦你通过搜索找到一篇感兴趣的论文,你可以将鼠标悬停在附近的论文上,以查看它们。还可以在图上点击并拖动一个方框,查看右边的论文摘要和列表中的常用词。
官网给出的下述柱状图包含了每个学科领域内的论文数量。登录到大会官网后,你可以点击条形图来搜索该学科领域的论文(https://iccv2021.thecvf.com/papers-visualizations?filter=titles&search=Detection+and+localization+in+2D+and+3D)。而我们可以根据该柱状图看出本次大会的论文主题分布。与迁移学习/少样本/半监督或无监督学习相关的论文数量是最多的,我们可以看出这些可能是目前计算机视觉领域会经常考虑使用的方法。紧随其后的是图像和视频分析、2D/3D检测及定位、识别和分类等经典的研究主题,这些论文主题更多的是从视觉的应用角度入手的。
从ICCV 2021的热门主题我们可以看出下面的趋势:
传统的图像和视频理解、目标检测等仍然是研究的热门。计算机视觉领域中,传统的图像和视频理解、目标检测等仍然是研究的热门。以2D/3D目标检测为例,监督/半监督方法、少样本学习等方法都有所应用。
可解释性、公平、伦理等得到更多关注;对抗学习研究论文较多。关于可解释性、公平、透明、伦理等问题的文章数量也不少,说明计算机视觉领域的研究人员也开始关注这一问题。此外,由于计算机视觉任务极易收到对抗样本的影响,关于对抗学习的论文数量也较多。
点击「机器之心2021-2022年度AI技术趋势报告 」,获取报告。已获得「机器之心Pro 会员」全功能账号权限的用户可直接下载查看。如您还没有「机器之心Pro会员」,扫描下方二维码关注「机器之心Pro」服务号(id:almosthuman2014pro),进入服务号主页,点击对话框,编辑发送「机器之心Pro会员」咨询,客服值班时间为工作日的10:00 - 19:00。