Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

驾驭白夜场景、刷新多个SOTA,苏黎世联邦理工用高效时序建模提升多目标追踪与分割

研究者分享了他们对自动驾驶场景中高效快速进行时序建模和多物体追踪分割的思考。

本文是对苏黎世联邦理工、香港科技大学和快手科技的论文《Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation- PCAN》的解读,该论文被 NeurIPS 2021 接收为 spotlight。


  • 论文地址:https://arxiv.org/pdf/2106.11958.pdf

  • 项目主页:https://www.vis.xyz/pub/pcan/

  • GitHub 地址:https://github.com/SysCV/pcan

  • 知乎原文:https://zhuanlan.zhihu.com/p/445457150

  • B 站地址:https://www.bilibili.com/video/BV1Rb4y1i7zS?spm_id_from=333.999.0.0


深度学习模型的训练和评估离不开大型数据集的支撑。本文提出的原型交叉注意力网络( Prototypical Cross-Attention Network, PCAN)是基于苏黎世联邦理工和 UC 伯克利推出的学术界最大规模的自动驾驶多目标跟踪和分割(MOTS)数据集 - BDD100K Tracking and Segmentation。其中,BDD Tracking Segmentation 数据集的规模是 KITTI-MOTS 的 6 倍(3,0817 vs 5,027 训练图像、480K vs 26K 实例掩码),标注物体数量是 KITTI 的近 20 倍,并覆盖白天、夜间、 雨雪等更为丰富真实的自动驾驶场景。

研究者展示了在 BDD100K - Day 数据集上 PCAN 的车辆预测结果(白天场景)。


以及 BDD100K-Night 数据集上 PCAN 的预测结果(夜晚场景)。


引言

多目标跟踪和分割(MOTS),是自动驾驶和视频分析等许多实际应用中的一个重要问题。该任务需要将视频中给定的类别的所有物体进行检测、分类、跟踪和像素级分割。在自动驾驶场景中,复杂的路况、市区内密集且相似的车辆和行人、以及对低功耗低延时(low computation & low memory cost & onlin)的预测需求又给这一任务带来了新的挑战。由于引入了大规模数据集,如 BDD100K、KITTI 等作为深度学习模型训练和测试基准,对 MOTS/VIS 的研究兴趣正迅速增长。

MOTS 的大部分 online 方法(MaskTrack R-CNN、SipMask 等)主要遵循基于检测的跟踪范式(tracking-by-detection paradigm)。首先在单张图片内检测和分割对象,然后是帧之间的关联。尽管这些方法已取得较好的结果,但在对时序建模上仅限于物体关联阶段,并且仅在两个相邻帧之间。

另一方面,时间维度包含关于场景的丰富信息,同一物体的不同时间下多个角度的视图可以提高预测的物体分割、定位和类别的质量。然而,高效地利用历史信息(memory information)仍然是一个挑战。虽然基于注意力机制的时序建模方法(包含 Self-Attention, Non-local Attention 和 Transformer 等)已应用于视频处理,但它们通常直接对高分辨率的深度特征图进行操作。长时间序列上的密集的像素级注意力操作会产生对长度的二次复杂性(quadratic complexity),进一步带来巨大的计算负担和 GPU 内存消耗(例如 VisTR 等),也极大地限制了它们的实际应用。

PCAN 提出了一种简单高效地利用视频时序信息的机制, 通过对目标物体及过去帧的外观特征做高斯混合建模,得到数量较少且低秩(sparse and low-rank)的表征混合原型(可以理解为多个不同的 cluster centers), 实现了对历史信息(memory bank)的压缩。这一操作在降低注意力运算复杂度和内存需求的同时, 也提高了视频物体分割的质量和追踪的稳定性。PCAN 包括帧级(frame-level module)和实例级(instance-level module)两个模块的原型交叉注意力(prototypical cross-attention),前者重构过去帧的深度特征并将其与当前帧对齐,而后者聚焦于视频中的被追踪物体。

 为了增强对物体外观随时间变化的鲁棒性,PCAN 通过对比学习(contrastive learning)的机制分别使用 foreground/positive 和 background/negative prototypes(前景和背景原型)来进一步表示每个对象实例,并且将这些原型以在线方式传播更新(online updating)。由于每个实例或帧的原型数量有限,PCAN 在视频中具有时间线性复杂度的高效地执行远程特征聚合和传播。

方法概述

PCAN 的结构框架

PCAN 首先将历史信息(memory bank)中的高分辨率特征压缩到帧级和实例级的原型(prototypes)中,然后通过原型交叉注意力(prototypical cross-attention)操作,从由原型组成的 space-time memory bank 中去提取和利用过去帧中包含的丰富的外观、纹理和共享信息等。

空间 - 时间中的传统交叉注意力公式:


空间 - 时间中的原型交叉注意力公式:


Memory bank 中 prototypes 的数量 ,这有效地避免了对整个高分辨率的历史特征做逐像素密集的 attention 操作。PCAN 采用高斯混合模型(Gaussian Mixture Models, GMM)来进行无监督特征聚类,并选取 EM(Expectation-Maximization)迭代算法的得到的高斯分布拟合聚类中心作为 prototypes。其中,每个像素特征点到 prototype 中心的距离定义为。更为详细的公式讲解请参考原论文:



PCAN 框架概览图如下:




Frame-level PCAN

对于 memory bank 中的帧特征,研究者首先进行基于 GMM 的聚类高斯分布拟合)以获得 key 和 value prototypes,并根据当前帧的产生的 key 根据 cross-attention weights 将其低秩重建。

基于原型和当前帧重建帧特征。

重建的特征不仅与当前帧对齐,还通过有限数量的高斯分布拟合去除了特征中冗余信息 (noise reduced),在保持像素点特征空间差异的同时,相似点间的内部差异得到进一步缩小。随后,重建特征与当前帧特征做加权融合,产生的新时序特征用于后续 MOTS 中的分类,检测,分割和追踪等多个子任务。

frame-level 原型交叉注意力概览图。

Instance-level PCAN

对于 MOTS 中感兴趣追踪的物体,研究者进一步根据初始的 mask 和 bounding box 对物体做前后背景的区分,前景(黄色区域)建模为 positive instance prototypes,背景建模(蓝色区域)为 negative prototypes。这些 instance specific 的 prototypes 随着时间不断更新,更新机制采用滑动平均来更新,类似于 LSTM 中的 hidden state。

在第帧时,这些 positive 和 negative 的 prototypes 分别产生不同的 attention maps,从中也能看出不同 prototype 的关注代表区域。最后将初始的物体 mask、产生的 instance attention map、以及融合时序新的 frame feature concat 在一起,通过一个简单的分割 FCN 网络得到最终的 mask 预测。


随时间更新实例原型。

具有前景和背景原型、时序传播的实例级原型注意力。

实验

PCAN 作为一个 online method 在两个最大规模的 MOTS 数据集 BDD100K 和 Youtube-VIS 上都取得了领先性能。

BDD100K 分割追踪验证集上的比较结果。

Youtube-VIS 验证集上的比较结果。

PCAN 在 Youtube-VIS 的性能随着 memory tube length 和 prototype 数量的变化,从中可看出长时序建模和在一定范围内增多 prototype 数量的带来的性能改善。

长期时序信息和原型聚类的影响。

原型交叉注意力可视化

【Instance-level】对红色虚线框中的汽车的 instance attention 可视化。研究者选择前四个前景 / 背景原型作为示例,其中每个都专注于特定的汽车子区域,例如第一个 prototype 关注于车头的位置,并且这一 attention 分布随着时间的推移具有隐式无监督一致性。

由红色点边界框定的汽车实例交叉注意力

对红色虚线框中的行人的 instance attention 可视化:

红色点边界框定的行人原型实例交叉注意力地图。

【Frame-level】对整张图 frame-level 的可视化,其中随机选择了 8 个 frame prototypes 并在图像上显示了它们的注意力分布。显然,每个 frame prototype 都学会对应图像的一些语义概念,涵盖前景和背景区域,例如人、滑板、雨伞和网球拍等等,这些都是通过无监督聚类所学习到的。

可视化随机帧原型的 frame-level 原型交叉注意力地图。

BDD100k 实例分割追踪竞赛


  • BDD100K Dataset 地址:https://www.bdd100k.com/

  • BDD100K Tracking & Segmentation 排行榜:https://eval.ai/web/challenges/challenge-page/1295/overview


参考链接

  1. Non-local Neural Networks: https://arxiv.org/abs/1711.07971 

  2. EMANet: Expectation-Maximization Attention Networks for Semantic Segmentation

  3. KITTI MOTS: MOTS: Multi-Object Tracking and Segmentation

  4. Space-Time Memory Networks: https://arxiv.org/abs/1904.0060 

理论苏黎世联邦理工学院自动驾驶
相关数据
快手科技机构

快手科技成立于2011年,是一家用户导向、人工智能(AI)为核心技术的高科技公司,以“记录世界 记录你”,用有温度的科技提升每个人独特的幸福感为核心使命。公司旗下产品矩阵包括主打短视频的快手APP、二次元社区AcFun、小游戏APP快手电丸、剪辑软件快影等,致力于用科技帮助用户探索世界、连接彼此和共同成长。

https://kuaishou.com
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

高斯混合模型技术

高斯混合模型(Gaussian Mixture Model,GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

知乎机构

知乎,中文互联网综合性内容平台,自 2010 年成立以来,知乎凭借认真、专业、友善的社区氛围,独特的产品机制,以及结构化、易获得的优质内容,聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群,已成为综合性、全品类,在诸多领域具有关键影响力的内容平台。知乎将AI广泛应用与社区,构建了人、内容之间的多元连接,提升了社区的运转效率和用户体验。知乎通过内容生产、分发,社区治理等领域的AI应用,也创造了独有的技术优势和社区AI创新样本。

zhihu.com
实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

多目标跟踪技术

多目标跟踪(Multiple Object Tracking or Multiple Target Tracking, MOT or MTT)主要任务是在给定视频中同时对多个目标进行定位、维持他们的ID、生成他们各自的轨迹。

推荐文章
暂无评论
暂无评论~