Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部发布

嬴彻科技CTO杨睿刚博士与你分享CVPR 2021入选论文

在本文中,嬴彻科技首席技术官(CTO)杨睿刚博士就被本届大会被收录的 5 篇论文为大家带来解读。

一年一度的 CVPR 2021 正如火如荼地在线上举行,来自全球的逾 7,000 位学者通过线上网络分享和交流计算机视觉和人工智能领域的前沿研究。

嬴彻科技首席技术官(CTO),杨睿刚博士,就被本届大会收录的 5 篇论文为大家带来一一解读。此外,作为 CVPR 2021 大会程序主席(Program Chair),他也分享了对今年的大会论文投稿数、接收率、论文质量等方面的看法。

这 5 篇论文,包含 2 篇 Oral 论文,主要集中在语义分割、迁移语义、深度估计等方向,具有较高的工业化应用前景,能够为高阶自动驾驶方案提供充分的理论支撑。这 5 篇论文也是嬴彻科技的研发人员与香港大学、香港中文大学、北京理工大学等研究机构基于嬴彻自动驾驶系统研发工作的共同成果。

论文分享,自动驾驶学术前沿一睹为快

1、圆柱坐标系和非对称 3D 卷积神经网络在激光点云划分中的应用
Cylindrical and Asymmetrical 3D Convolution Networksfor LiDAR Segmentation

语义分割任务中,模型的任务是为 3D 点云中的每个点分配一个语义标签。为了解决室外点云的密度不均和稀疏性问题,该论文提出了包含圆柱坐标系下的体素划分和非对称 3D 卷积网络两大部分的框架。前者负责对点云进行圆柱体形式的划分,这种方法适配了激光雷达扫描时的扇形分布特性,避免了远近处获得的点云数量不均匀。后者可更好地匹配驾驶场景下的物体分布和形状,并基于二维和三维分解挖掘上下文信息,从多角度看到每个点云的全貌,从而解决点云稀疏性难题。最后,该论文还引入了一个 point-wise 模块来改进前面得到的体素块输出,以点块结合的方式提高了辨识精度。

这项新的算法在两个大型室外场景数据集(SemanticKITTI 和 nuScenes)上进行了模型评估。在 SemanticKITTI 数据集上,新框架取得了两项第一。在 nuScenes 数据集上,新方法的表现也大大超过了之前的方法。

新的算法被应用在嬴彻科技自动驾驶系统的感知算法中,作为 “精准语义分割 3D 感知技术” 的核心算法,能够更鲁棒、更及时感知道路上突发遇到的各类物体,从而帮助自动驾驶系统更准确地做出决策规划,让高速行车更安全。

关键词:圆柱坐标系,点云语义分割

论文链接:https://github.com/xinge008/Cylinder3D

2、领域自适应的迁移语义增强
Transferable Semantic Augmentation for Domain Adaptation

增强结果可视化

领域自适应主要是研究如何利用具有大量标签的源域知识,来辅助模型在一个相关但是无标签的目标域上的学习。现有的领域自适应方法大多是基于一个共享的源域监督分类器来对齐两个域的特征表示。然而,这种分类器限制了模型在未标记目标域上的泛化能力。

针对这个问题,该论文提出了一种迁移语义增强方法(TSA):通过朝着目标域的语义方向,隐式地生成源域增强特征,利用这些具有目标域语义的增强特征来提高模型在目标域上的泛化能力。

在该论文中,对于每一类,TSA 利用一个多元正态分布来建模两个域之间该类的语义差异,然后从构建的分布中随机采样语义增强方向来增强源域特征。最后,论文通过最小化一个期望损失函数的上界实现了源域特征的无限增广。相比于其他应用于 DA 的数据增强方法,TSA 是隐式增强,其引入的额外计算开销几乎可忽略不计,更轻量通用。在多个公开的跨领域数据集上,TSA 都取得了更有竞争力的实验结果。

关键词:语义迁移,隐式增强

论文链接:https://github.com/BIT-DA/TSA

3、高效推断的动态领域自适应
Dynamic Domain Adaptation for Efficient Inference

以往的领域自适应算法大多利用复杂而强大的深层神经网络来提高自适应能力,并取得了显著的成功。然而,它们可能无法适用于实时交互等实际情况,即在有限的计算资源下低延迟是一个基本要求。

为了解决这个问题,本文提出了一种动态领域自适应(DDA)框架,该框架既能在低资源场景下实现高效的目标推理,又能继承领域自适应算法带来的良好跨域泛化特性。与静态模型不同,通过在网络中配置多个中间分类器来动态推断 “更简单” 和“更困难”的目标数据,DDA 可以将各种领域混淆约束集成到任意的经典自适应网络中,简单而通用。

此外,该论文还提出了两种新的策略来进一步提高多个预测出口的自适应性能:1)基于置信度得分的学习策略——充分挖掘不同分类器的预测一致性,以此获得目标域数据的准确伪标签;2)类平衡的自训练策略——在不损失预测多样性的前提下,使多阶分类器从源域显式地适配到目标域上。多个基准上的实验验证了 DDA 算法在域迁移和资源受限的情况下,仍能够持续地提高自适应性能并加速目标推理。

关键词:领域自适应,推理加速

论文链接:https://github.com/BIT-DA/DDA

4、针对长尾图像识别的元语义增广
MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition

现实世界的训练数据通常表现为长尾分布,其中几个多数类的样本数量显著多于其余少数类。这种不平衡的数据分布使得专为平衡数据集设计的监督算法出现性能退化。

为了解决这个问题,本篇论文利用最近提出的隐式语义数据增强 (ISDA) 算法来增强少数类。该算法通过沿着多个有语义意义的方向,变换深度特征来产生多样化的增强样本。但是,ISDA 是利用各类的统计信息而获取的语义方向,其在缺乏训练样本的少数类上会表现欠佳。为此,论文提出了一种基于元学习的自动学习语义变换方向的方法。

具体地,训练过程中的增广策略是动态优化的,目标是最小化小型平衡验证集上的损失,这一过程可用一步元更新近似。在 CIFAR-LT-10/100、ImageNet-LT 和 iNaturalist 2017/2018 上的实验结果证明了此方法的有效性。

关键词:数据不均衡,语义变换

论文链接:https://github.com/BIT-DA/MetaSAug

5、使用对极时空网络的多视图深度估计
Multi-view Depth Estimation using Epipolar Spatio-Temporal Network

该论文针对多视角立体视觉(Multi-view Stereo)应用在视频的场景,提出了一种利用时序相关性的新方法。过去的多视角立体几何的方法,通常只能单独估计每一帧图片的深度信息,无法利用视频的时序相关性来提高准确度。该论文提出了一种新颖的极几何时空的 transformer 结构,在对多张连续视频帧进行深度估计时,能够显性得利用连续图像的几何和时序信息,提高了对视频进行深度估计的时序一致性。在多个公开数据集上,该论文的方法都取得了领先的效果。

关键词:极几何时空,多视角立体几何

论文链接:https://www.xxlong.site/ESTDepth/

杨睿刚:CVPR 仍是最强,来嬴彻跟顶会玩家一起做学术

而对于 CVPR 2021 的大会工作,杨睿刚博士也从程序主席的角度对广大学者们分享了自己的看法:

今年总共收到约 7,015 篇投稿,看起来投稿数的增长相比过去三年变缓了,但大家应该注意到论文接收数在稳定地增加。一方面我们很高兴 CVPR 的影响力和吸引力始终在 AI 领域保持领先,另一方面如此大量的投稿也对论文的评审工作提出了更高的要求,一大批新的领域主席(Area Chair)和审稿人加入我们,我们同时引入了自动化分类和匹配的手段来提升效率。

事实证明这些举措取得了很好的效果,同时非常感谢我们全部的 AC 和审稿人的配合,AC Triplet 的线上会议持续了整整一周,让我们在全球仍在与疫情斗争的形势下,仍然保质保量地完成了全部的工作。

谈到论文接收率,我作为程序主席常常会被问到我们是否会刻意设置一个特定的阈值。其实并没有,我们只是按照一个 CVPR 的一贯标准去看待每一篇论文是否值得被收录,而最终的接收率结果就比较稳定的收敛到了 25% 左右。

我认为我们对于评审标准和论文质量的坚持,让 CVPR 保持了在 AI 领域内的绝对地位。在 Guide2research 的榜单上,CVPR 是在计算机科学领域影响因子排名第一的顶级会议,即使与 Nature 和 Science 这样的顶级刊物放在一起,CVPR 也在全领域榜单中排入前五。因此我衷心地祝贺所有拿到 CVPR 录用通知的作者们,也鼓励那些在这次会议失之交臂的作者们。绝大多数评审的结果都是客观中肯的,我更愿意大家把评审意见当做改进自己工作的一面镜子,这样能让自己在这个领域拥有持续耕耘的动力。

Guide2research 计算机科学顶级会议影响力排名

谷歌学术影响力排名

最后想说一下我在企业里继续参与 CVPR、ICCV 这种学术顶会的另一个视角。我认为科技初创公司要时刻保持对前沿技术的敏感性,通过参会培养一支视野开阔、勇于创新的团队,对于嬴彻而言,一方面是继续夯实在量产方面的工程能力,另一方面,就是不断突破自动驾驶技术难题,而这些顶级会议,对于算法团队来说是一个不可多得的练兵机会。

嬴彻非常难得地提供了兼具商业技术创新和前沿技术探索的土壤。我们内部有一个名为 X Lab 的 Research 团队,汇聚了来自新加坡国立大学、浙江大学、北京大学等国内外知名高校的博士、博士后,他们与香港大学、香港中文大学、美国马里兰大学、清华大学等紧密合作,共同探索计算机视觉和机器人领域的前沿课题,为嬴彻轩辕自动驾驶系统的自主研发提供了强有力的支持,非常期待更多顶会玩家加入我们。
理论论文解读嬴彻科技
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

流计算技术

Spark Streaming是Spark Core API的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据,比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理,比如map、reduce、join和window。

北京理工大学机构

北京理工大学1940年诞生于延安,是中国共产党创办的第一所理工科大学,是新中国成立以来国家历批次重点建设的高校,首批进入国家“211工程”和“985工程”,首批进入“世界一流大学”建设高校A类行列。

http://www.bit.edu.cn/
相关技术
北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~