Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

能够有效实现多模态交叉提示跟踪。

目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。

然而,现有的多模态跟踪任务也面临两个主要问题:

  1. 由于多模态目标跟踪的数据标注成本高,大多数现有数据集规模有限,不足以支持构建有效的多模态跟踪器;

  2. 因为不同的成像方式在变化的环境中对物体的敏感度不同,开放世界中主导模态是动态变化的,多模态数据之间的主导相关性并不固定。

在 RGB 序列上进行预训练,然后以完全微调的方式转移到多模态场景的许多多模态跟踪工作存在时间昂贵和效率低下的问题,同时表现出有限的性能。

除了完全微调方法之外,受自然语言处理 (NLP) 领域参数高效微调方法成功的启发,一些最近的方法通过冻结骨干网络参数并附加一组额外可学习的参数,将参数高效 prompt 微调引入到多模态跟踪中。

这些方法通常以一种模态 (通常是 RGB) 为主导模态,另一种模态作为辅助模态。然而,这些方法忽略了多模态数据的动态主导相关性,难以在如图 1 所示的复杂场景中充分利用互补的多模态信息,从而限制了跟踪性能。

图片

图 1:复杂场景下不同的主导模态。

为了解决上述问题,来自天津大学的研究人员设计出了一种双向 adapter 用于多模态跟踪 (BAT)。与在主导模态中添加辅助模态信息作为提示以增强基础模型在下游任务中的表示能力的方法 (通常使用 RGB 作为主要模态) 不同,该方法没有预设固定的主导模态 - 辅助模态,而是在辅助模态向主导模态变化的过程中动态提取有效信息。

BAT 由两个共享参数的特定于模态分支的基础模型编码器和一个通用的双向 adapter 组成。在训练过程中,BAT 没有对基础模型进行完全的微调,每个特定的模态分支由具有固定参数的基础模型初始化,仅训练新增的双向 adapter。每个模态分支从其他模态中学习提示信息,与当前模态的特征信息相结合,增强表征能力。两个特定模态的分支通过通用双向 adapter 执行交互,在多模态非固定关联范式中动态地相互融合主导辅助信息。

通用双向 adapter 具有轻量级沙漏结构,它可以嵌入到基础模型的每一层 transformer 编码器中,而不需要引入大量的可学习参数。通过添加少量的训练参数 (0.32M),BAT 与全微调方法和基于提示学习的方法相比具有更低的训练成本,获得了更好的跟踪性能。

论文《Bi-directional Adapter for Multi-modal Tracking》:

图片

论文链接:https://arxiv.org/abs/2312.10611

代码链接:https://github.com/SparkTempest/BAT

主要贡献

  • 我们首先提出了一个基于 adapter 的多模态跟踪视觉提示框架。我们的模型能够感知开放场景中主导模态的动态变化,以自适应的方式有效融合多模态信息。

  • 据我们所知,我们首次为基础模型提出了一个通用的双向 adapter。它结构简单、高效,能有效地实现多模态交叉提示跟踪。通过仅添加 0.32M 可学习参数,我们的模型可以鲁棒应对开放场景下的多模态跟踪。

  • 我们深入分析了我们的通用 adapter 在不同层深的影响。我们还在实验中探索了更高效的 adapter 架构,并验证了我们在多个 RGBT 跟踪相关数据集上的优势。

核心方法

如图 2 所示,我们提出了一个基于双向 Adapter 的多模态追踪视觉提示框架 (BAT),框架具有 RGB 模态和热红外模态的双流编码器结构,每个流使用相同的基础模型参数。双向 Adapter 与双流编码器层并行设置,从两个模态相互交叉提示多模态数据。

方法没有对基础模型进行完全的微调,仅通过学习轻量级双向 Adapter,将预先训练好的 RGB 追踪器高效地转移到多模态场景中,实现了出色的多模态互补性和卓越的追踪精度。

图片

图 2:BAT 的总体架构。

首先将每种模态的图片模板帧(第一帧中目标物体的初始框图片)和图片搜索帧(后续追踪图像)转换为 图片,将它们拼接在一起分别传递给 N 层双流 transformer 编码器。

图片

双向 adapter 与双流编码器层并行设置,可以学习从一种模态到另一种模态的特征提示。为此,将两个分支的输出特征相加并输入到预测头 H 中,得到最终的跟踪结果框 B。

图片

双向 adapter 采用模块化设计,分别嵌入到多头自注意力阶段和 MLP 阶段,如图 1 右侧所示双向 adapter 的详细结构,其设计用于将特征提示从一种模态转移到另一种模态。它由三个线性投影层组成,tn 表示每个模态的 token 个数,输入 token 首先通过下投影被降维为 de 并通过一个线性投影层,然后向上投影到原始维度 dt 并作为特征提示反馈到其他模态的 transformer 编码器层。

通过这种简单的结构,双向 adapter 可以有效地在 图片 模态之间进行特征提示,实现多模态跟踪。

由于冻结了 transformer 编码器和预测头,因此只需要优化新增 adapter 的参数。值得注意的是,与大多数传统 adapter 不同,我们的双向 adapter 是作为动态变化的主导模态的跨模态特征提示而发挥作用的,确保了开放世界中良好的跟踪性能。

实验效果

如表 1 所示,在 RGBT234 和 LasHeR 两个数据集上的对比表明我们在的方法在准确率和成功率上均优于最先进的方法。如图 3 所示,在 LasHeR 数据集的不同场景属性下,与最先进方法的性能比较也证明了所提出方法的优越性。

这些实验充分证明了我们的双流追踪框架与双向 Adapter 成功地追踪了大多数复杂环境中的目标,并自适应地从动态变化的主导 - 辅助模态中提取有效信息,达到了最先进的性能。

图片

表 1 RGBT234 和 LasHeR 数据集上的整体性能。

图片

图 3 LasHeR 数据集中不同属性下 BAT 和竞争方法的比较。

实验证明我们在复杂场景中从不断变化的主导 - 辅助模式中动态提示有效信息的有效性。如图 4 所示,与固定主导模态的相关方法相比,我们的方法即使在 RGB 完全不可用的情况下也能有效地追踪目标,当 RGB 和 TIR 在后续场景中都能提供有效的信息时,追踪效果要好得多。我们的双向 Adapter 从 RGB 和 IR 模态中动态提取目标的有效特征,捕获更准确的目标响应位置,并消除 RGB 模态的干扰。

图片

图 4 跟踪结果的可视化。

我们同样在 RGBE 追踪数据集上评估了我们的方法。如图 5 所示,在 VisEvent 测试集上与其他方法相比,我们的方法在不同复杂场景下的追踪结果最为准确,证明了我们的 BAT 模型的有效性和泛化性。

图片

图 5 VisEvent 数据集下追踪结果。

图片

图 6 attention 权重可视化。

我们在图 6 中可视化了不同层跟踪目标的注意力权重。与 baseline-dual (基础模型参数初始化的双流框架) 方法相比,我们的 BAT 有效地驱动辅助模态向主导模态学习更多的互补信息,同时随着网络深度的增加保持主导模态的有效性,从而提高了整体跟踪性能。

实验表明,BAT 成功地捕获了多模态互补信息,实现了样本自适应动态跟踪。

产业计算机视觉目标跟踪Adapter
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~