Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部编辑

中山大学人机物智能融合实验室 17 篇论文入选 ICCV 2023

ICCV 是全球计算机视觉领域顶级的学术会议,中山大学人机物智能融合实验室 17 篇论文入选。

近日,国际计算机视觉大会 ICCV(International Conference on Computer Vision)公布了 2023 年论文录用结果,本届会议共有 8068 篇投稿,接收率为 26.8%。 ICCV 是全球计算机视觉领域顶级的学术会议,每两年召开一次,ICCV 2023 将于今年 10 月在法国巴黎举行。今年,中山大学人机物智能融合实验室(HCP-Lab, https://www.sysu-hcp.net)17 篇论文入选,研究主题涵盖 AIGC、多模态认知推理、预训练模型、自动驾驶、医学影像等领域。以下为部分入选论文概览:

01 基于掩码图自编码器的人体骨架序列预训练框架

摘要:骨架序列表征学习在动作识别方面表现出了巨大的优势,因为它能够很好地建模人体骨架和拓扑结构。然而,目前的方法通常需要大量标记数据来训练计算成本高昂的模型,这是一项费时费力的工作。此外,这些方法忽视了如何利用不同骨架关节之间的细粒度依赖关系,以预训练一个能够在不同数据集上具有良好泛化能力的高效骨架序列学习模型。本工作提出了一种高效的骨架序列学习框架,称为 Skeleton Sequence Learning (SSL)。为了全面捕捉人体姿势并获得判别能力强的骨架序列表示,我们构建了一种名为 SkeletonMAE 的非对称图编码 - 解码预训练架构,该架构将骨架关节序列嵌入到图卷积网络 GCN 中,并基于先验的人体拓扑知识重构被掩盖的骨架节点和边。然后,预训练的 SkeletonMAE 编码器与空间 - 时间表示学习 STRL 模块相结合,构建了 SSL 框架。大量的实验结果表明,我们的 SSL 在不同数据集上具有很好的泛化性能,并在 FineGym、Diving48、NTU 60 和 NTU 120 数据集上超过了主流的自监督骨架动作识别方法。同时,我们方法能够比拟甚至超越某些全监督方法。

论文链接:https://arxiv.org/pdf/2307.08476.pdf

代码链接:https://github.com/HongYan1123/SkeletonMAE

02 一种适应数据增长的可成长多模态预训练模型框架

摘要:得益于从互联网收集的大量图像 - 文本对,多模态预训练已在各种下游任务中展现出令人印象深刻的性能。在实际场景中,训练数据会不断增长,所以预训练模型具有从不断增长的数据中学习的能力十分重要。一方面,现有的多模态预训练工作主要都采用固定网络结构的模型。然而,考虑到预训练数据在实际应用中不断增长的特性,限制模型容量是不合理的。另一方面,利用当前模型中的知识以获得高效的训练和更好的性能也很重要。为了解决上述问题,本文提出了 GrowCLIP,这是一种数据驱动的自动模型成长算法,用于具有连续图像 - 文本对输入的对比语言 - 图像预训练。具体而言,我们采用了一个动态成长空间,并在每个成长步骤中寻找最佳网络结构,以适应在线学习场景。我们在成长空间中提出了共享编码器,以增强多模态融合的程度。此外,我们探索了在模型不同维度上进行成长的效果,这可以为多模态模型架构的设计提供未来的参考。最后,我们采用动量参数继承的办法来保留先前模型的知识。与现有方法相比,GrowCLIP 在 9 个下游任务的零样本图像分类的平均 top-1 准确率上提高了 2.3%。至于零样本图像检索,在 Flickr30K 数据集上,GrowCLIP 可以提高 1.2% 的 top-1 图像到文本召回率。

03 通过软提示方法,迈向统一的医疗视觉语言预训练

摘要:医疗视语预训练(Med-VLP)因其适用于从医学图像和文本中提取通用表示的能力,在许多下游医学任务上显示出有希望的改进。实际上,存在两种典型类型,即融合编码器类型和双编码器类型,取决于是否使用了复杂的融合模块。前者在多模态任务上表现优越,因为模态之间有足够的交互;后者在单模态和跨模态任务上表现良好,因为具备单一模态的编码能力。为了充分利用这两种类型,我们提出了一种有效而简单的方案,命名为 PTUnifier,以统一这两种类型。我们首先通过引入视觉和文本提示来统一输入格式,这些提示充当类似 DETR 的查询,在其中一个模态缺失时帮助提取特征。通过这样做,单个模型可以作为基础模型,处理采用不同输入格式的各种任务(即仅图像、仅文本和图像 - 文本对)。此外,我们构建了一个提示池(而不是静态提示),以提高多样性和可扩展性,使查询基于不同的输入实例进行条件约束。实验结果显示,我们的方法在多种任务中都取得了不错的结果,涵盖了单模态任务(即图像 / 文本分类和文本摘要),跨模态任务(即图像到文本生成和图像 - 文本 / 文本 - 图像检索),以及多模态任务(即视觉问题回答),证明了我们方法的有效性。

论文链接:https://arxiv.org/pdf/2302.08958

代码链接:https://github.com/zhjohnchan/ptunifier

04 基于跨视觉语言模态的多提示学习技术回顾

摘要:计算机视觉研究正随着视觉 - 语言预训练模型的出现而取得前所未有的进展。提示学习是有效访问视觉 - 语言预训练模型的技术钥匙,其优势在于它允许我们利用有限的资源实现对下游任务的快速模型适应。然而,现有的提示学习研究研究往往围绕单提示范式,甚少探究其对应的多提示学习形式以及其技术潜力。本文旨在为视觉 - 语言多提示学习提供一个系统性的回顾。我们从最近被发现的恒等模态间隔现象开展讨论,并以实验的方式将该现象扩展到可学习优化的提示嵌入空间。同时,我们基于恒等模态间隔现象作为理论假设,证明了跨模态不可判别性问题的存在:即给定一组跨模态对比学习模型(如 CLIP)下,利用单个提示模板实现的提示询问结果在面对包含多个不同视觉语义概念的图像时,其提示询问结果会不可避免地出现歧义现象。跨模态不可判别性问题的存在进一步阐释了利用多提示的方式去实现提示学习的必要性。基于该观察,我们进一步提出基于能量的多提示学习(Energy-based Multi-Prompt Learning,EMPL),通过从由视觉 - 语言预训练模型隐式定义的基于能量的分布中抽取实例的方式,间接为每一个图像询问生成多个提示嵌入实现多提示学习。我们的 EMPL 方法不仅能高效节省参数使用,同时能严格地诱导出域内和域外开放词汇泛化之间的基于不确定性建模下的理论平衡。我们在 MSCOCO 数据集上验证了我们对恒等模态间隔现象对提示学习背景下的构想,同时我们提出的 EMPL 方法也在基类新类泛化,跨领域泛化以及跨数据集迁移的实验设定下取得了卓越的性能提升。

05 密集预测场景下,用于文本指代分割的多模态参数高效微调方法

摘要:参数高效微调方法(Parameter Efficient Tuning,PET)因其能够在保持模型性能的同时,有效地减少需要更新的模型参数量,以提供节省存储模型所需的硬件资源而受到广泛的关注。然而,目前的大多数方法都集中在单模态任务或简单的分类任务上,缺乏对密集预测任务和不同模态之间的交互设计的关注。因此,本文提出一种用于预训练视觉语言模型(Vision Language Models)的参数高效微调方法,并在图像指代分割(Referring Image Segmentation)这一多模态密集预测任务上进行了验证。为了解决双编码器之间缺乏交互的问题,本文提出了一种名为桥接器(Bridger)的多模态适配器,以促进不同模态间信息的交互。该模块能够在保持其模型原始参数固定的同时,将视觉先验知识及任务特定的信息注入到预训练视觉语言模型中,从而实现对下游任务的微调。其次,本文设计了一个轻量级的解码器,以进一步地对视觉和语言特征进行对齐,并在其末端加入掩码生成器以用于图像指代分割任务。为了对所提出的方法进行评估和效果分析,本文在几个具有挑战性的基准测试数据集上展开了实验。实验结果证明了本文方法的有效性。与之前使用相同骨干的完全微调方法相比,本文提出的方法展现出相近甚至更优的性能。同时,通过仅更新 1.61%至 3.38%的骨干网络参数量,本文的方法能够更好地利用预训练模型的知识,提高模型的泛化能力。

论文链接:https://arxiv.org/pdf/2307.11545.pdf

代码链接:https://github.com/kkakkkka/ETRIS

06 基于扩散模型的布局到图像生成模型

摘要:由于扩散模型的快速发展,目前图像合成领域取得了前所未有的进展。以往的工作主要依赖于预训练的语言模型,但文本信息往往过于抽象,我们难以通过文本准确指定图像的所有空间属性,例如场景的空间布局配置,从而导致复杂场景生成的结果不够理想。在本文中,我们通过提出一个语义可控的布局感知扩散模型,称为 LAW-Diffusion,实现了准确的复杂场景生成。与以往只探索类别关系的布局到图像生成(L2I)方法不同,LAW-Diffusion 引入了一个空间依赖解析器,将对象之间的位置感知语义一致性编码为布局嵌入,并生成一个具有和谐物体上下文关系的场景。此外,LAW-Diffusion 还引入布局感知的隐变量嫁接机制来重新组合局部区域语义,实现对图像的实例级别重配置。为了更好地验证生成场景的合理性,我们还提出了一个新的 L2I 任务评估指标,称为场景关系分数,用于衡量图像在保持上下文对象之间合理和谐关系方面的表现。在 COCO-Stuff 和 Visual-Genome 上进行的综合实验表明,我们的 LAW-Diffusion 在生成性能方面达到了最先进的水平。

07 赋予生成扩散模型跨模态判别能力

摘要:最近,大规模扩散模型(例如 Stable diffusion 和 DallE2)在图像合成方面展示出了显著的成果。另一方面,大规模跨模态预训练模型(例如 CLIP、ALIGN 和 FILIP)通过学习对齐视觉和语言嵌入在各种下游任务中表现出了很强的能力。在本文中,我们探索了同时建模生成和判别的可能性。具体而言,我们提出了 DiffDis,将跨模态生成和判别的预训练统一到一个单一框架下的扩散过程中。DiffDis 首先将图像 - 文本判别问题形式化为以图像为条件的文本嵌入的生成式扩散过程,其中文本嵌入是由文本编码器生成的。然后,我们提出了一种新颖的双流网络架构,将噪声文本嵌入与来自不同尺度的潜在图像的信息融合,用于图像 - 文本判别学习。此外,生成和判别任务可以在多模态模型中高效共享图像分支网络结构。通过基于扩散的统一训练,DiffDis 在一个架构中实现了更好的生成能力和跨模态语义对齐。实验结果显示,DiffDis 在图像生成和图像 - 文本判别任务上优于单任务模型,例如在 12 个数据集上的零样本分类平均准确率提高了 1.65%,零样本图像合成的 FID 提高了 2.42 个点。

08 基于扩散模型结构跨模态语义对齐的服装合成和编辑

DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment

作者:Xujie Zhang, Binbinyang, Michael C. Kampffmeyer, Wenqing Zhang, Shiyue Zhang, Guansong Lu, Liang Lin, Hang Xu, Xiaodan Liang

摘要:跨模式服装合成和操作将大大有助于服装设计师通过灵活的语言界面生成服装并修改其设计。然而,尽管目前已有技术在使用扩散模型的通用图像合成中取得了重大进展,但生成与输入文本提示很好地对齐的服装部件级语义的服装图像,然后灵活地操作生成的结果仍然是一个问题。当前的方法遵循一般的文本到图像范式,并通过简单的交叉注意力模块挖掘跨模态关系,忽略了时尚设计领域中视觉和文本表达之间的结构对应关系。在这项工作中,我们引入了此发明,这是一种用于跨模态服装合成和操作的基于扩散的管道,通过在结构上对齐跨模态语义,使扩散模型在时尚领域具有灵活的合成性。具体而言,我们将部分级跨模态对齐表述为语言属性短语和视觉服装部分之间的二分匹配问题,这两个部分分别通过选区解析和语义分割获得。为了缓解属性混淆的问题,我们进一步提出了语义捆绑交叉注意,以保持每个语言属性短语中属性形容词和部分名词的注意图之间的空间结构相似性。此外,此方法允许通过简单地替换文本提示中的语言属性短语来操作生成的结果。操纵无关区域由从语言属性短语的捆绑注意力图获得的混合掩码识别,并保持不变。在 CM 服装数据集基准上的大量实验表明,此方法通过利用固有的结构信息产生了最先进的服装合成结果,并支持具有区域一致性的灵活操作。

09 半监督场景下,一个基于软标签和对比学习的训练框架

摘要:作为半监督学习(SSL)领域的主流方法,通过伪标签的自训练及其变种方法在深度神经网络的最新进展下取得了令人瞩目的半监督语义分割结果。然而,目前基于自训练的半监督算法使用预先定义的阈值来选择有利于模型训练的无标注像素,因此无法兼容不同类别的学习难度和模型的不同学习状态。为了解决这些问题,我们提出了强化软标签(Enhancing Soft Label,ESL)的课程学习方法,来充分利用不可信的伪标签中隐含的高价值监督信号。我们认为虽然无法确定低置信度预测的具体类别,但是可以确定它属于主导类别(Dominant Classes)中的子集。因此 ESL 包括一个动态软标签的模块(Dynamic Soft Label, DSL)来动态地维护高概率类别,并将其转为软标签,以充分利用高熵值的预测。然而,DSL 本身将不可避免地引入主导类别之间的模糊性,从而模糊了分类边界。因此,我们进一步提出了一种像素到部分(pixel-to-part)的对比学习方法,并结合了无监督物体部分分组机制,以提高模型区分不同类别的能力。在 Pascal VOC 2012 和 Cityscapes 上进行的大量实验证明,我们的方法在现有最先进方法的基础上取得了显著的改进。

10 一个结合置信度准则和一致性准则的带噪声标签学习框架

摘要:噪声标签学习(LNL)是弱监督学习中最重要和具有挑战性的问题之一。识别噪声标签样本可以减轻噪声标签的干扰,以往的方法大多使用小损失准则来选择干净样本。然而,一维损失指标过于简化了评估过程,未能充分考虑不同样本中复杂的特征情景,因此在样本选择过程中容易引入分类偏差。本文提出了一种全新的 LNL 框架,通过利用置信度准则和一致性准则,有效应对噪声标签问题。在置信度方面,我们提出了一种基于置信度准则的样本选择策略,而非传统的小损失准则。这种新策略能够在增加样本选择数量的同时,不损失标注精度;在一致性方面,我们使用主要特征的排序,来度量同一类别样本的一致性。基于这一度量,我们提出了一个对比损失函数,增强相似样本的一致性,从而促进特征表示学习。 通过对 CIFAR-10、CIFAR-100、Clothing1M 和 WebVision 等数据集的噪声版本进行实验评估,我们证明了我们的方法在现有最先进方法上的优越性。

11 半监督场景下,基于梯度重采样的类别不平衡目标检测框架

摘要:当前的半监督目标检测(SSOD)算法通常假设数据集是类别平衡(PASCAL VOC 等)或轻微类别不平衡(MS-COCO 等)。因为现实世界的数据集本质可能是极度不平衡的,这个假设通常是不成立的。这使得半监督目标检测器很难取得令人满意的效果。此外,SSOD 对此问题的研究还严重缺乏。为了弥补这一研究空白,我们在更具有挑战性的场景下全面研究了 SSOD 中的类别不平衡问题,从而形成了第一个类别不平衡 SSOD 的实验设置(CI-SSOD)。此外,我们提出了一个简单而有效的基于梯度的采样框架。它从消除两种类型的确认偏差的角度解决类别不平衡问题。为了解决多数类别的确认偏差,基于梯度的重加权和基于梯度的阈值模块利用每个类别的梯度来充分平衡多数类别和少数类别的影响。为了解决少数类的错误伪标签带来的确认偏差,类别重平衡采样模块根据基于梯度的重加权模块的指导对无标注数据进行重采样。 我们在三个所提出的子任务(即 MS-COCO、MS-COCO 到 Object365 和 LVIS)的实验结果表明,我们的方法明显优于现有的类别不平衡目标检测器,可作为 CI-SSOD 未来研究的基础模型。

12 为开放世界语义分割设计的跨模态混合图像块重组训练

摘要:最近,使用图像级文本监督训练的语义分割模型在具有挑战性的开放世界场景中显示出了很好的结果。然而,这些模型在学习像素级的细粒度语义对齐和预测准确的对象掩码方面仍然面临困难。为了解决这个问题,我们提出了 MixReorg,这是一种新颖而直接的语义分割预训练范式,它增强了模型重组混合图像块的能力,同时探索了局部视觉相关性和全局语义一致性。我们的方法包括通过混合图像块来生成细粒度的图像块 - 文本对数据,同时保持补图像块和文本之间的对应关系。然后对模型进行训练,使混合图像的分割损失以及原始特征和恢复特征的两种对比损失最小化。使用 MixReorg 作为掩码学习器,传统的文本监督语义分割模型可以实现高度泛化的像素语义对齐能力,这对于开放世界分割至关重要。经过大规模图像 - 文本数据的训练,MixReorg 模型可以直接应用于任意类别的视觉对象的分割,而无需进一步的微调。我们提出的框架在流行的 zero-shot 语义分割基准上表现出色,在 PASCAL VOC2012、PASCAL Context、MS COCO 和 ADE20K 上分别以 5.0%、6.2%、2.5% 和 3.4% 的显著优势优于 GroupViT。

13 实现视频序列中的多人网格模型单阶段回归

摘要:从视频中恢复多人三维网格模型是实现虚拟现实、物理治疗和自动群体行为感知等领域关键的第一步。然而,现有方法依赖于多阶段范式,其中需要对多人单独进行目标检测与跟踪,而时序动态信息一次仅对一个人建模。 因此,受限于缺乏人体时空交互信息以及检测跟踪阶段误差累计的严重限制,模型恢复时空序列网格模型的性能逐步退化。为了应对这些挑战,我们提出了直接建模多人时空关系并同时以端到端方式执行多网格恢复的坐标 Transformer (CoordFormer)。 CoordFormer 不再将特征图划分为粗尺度的 Patch 级别 token,而是利用一种新颖的坐标感知注意力来保存像素级时空坐标信息。 此外,我们提出了一种简单而有效的人体中心注意力机制来融合位置信息。 在 3DPW 数据集上进行的大量实验表明,CoordFormer 显着提高了最先进的技术水平,同时根据 MPJPE、PAMPJPE 和 PVE 指标,CoordFormer 分别优于之前的最佳结果 4.2%、8.8% 和 4.7%,同时快于最近基于视频的方法 40%。开源代码可以在 https://github.com/Li-Hao-yuan/CoordFormer 上查看。

代码链接:https://github.com/Li-Hao-yuan/CoordFormer

14 面向自动驾驶感知任务的多模态多任务模型

摘要:考虑到感知预测的鲁棒性和计算资源的消耗,多模态融合和多任务学习在三维自动驾驶场景中受到广泛关注。然而,简单地将现有框架进行多模态多任务学习存在模态不平衡(modality bias)和多任务冲突(task conflict)的问题。以往的工作需要手动协调学习过程并依赖经验知识,这可能导致模型最终得到次优解。为了减轻这个问题,我们同时对多模态和多任务训练过程进行优化,提出了一个简单高效的多级梯度校准学习框架。具体而言,由任务头产生并用于更新共享主干的梯度将在主干的最后一层进行校准,以减轻任务冲突。在经过校准后的梯度进一步传播到主干的模态分支之前,其大小将再次进行校准,确保下游任务平衡关注不同的模态。在大规模基准 nuScene 上的实验证明了该方法的有效性,例如对比不进行手动调整的结果,地图分割上实现了 14.4%的 mIoU 改进,3D 检测上实现了 1.4%的 mAP 改进。同时我们还讨论了模态和任务之间的联系。

15 用于多类细胞核检测的仿射一致变换器

摘要:多类细胞核检测是组织病理学诊断的基本先决条件之一。 在数字病理图像中有效定位和识别具有不同形态和分布的细胞至关重要。 大多数现有方法以复杂的中间表示作为学习目标,并依赖于繁琐的后处理,同时较少关注各种细胞密度和视野。 在本文中,我们提出了一种新颖的仿射一致变换器,成为 Affine-Consistent Transformer(AC-Former),它能够直接生成细胞核位置,并通过两个子网络(全局网络和局部网络)进行协作训练。 局部分支学习推断较小尺度的失真输入图像,而全局网络输出大规模预测作为额外的监督信号。 我们进一步引入了自适应仿射变换器模块(Adaptive Affine Transformer,AAT),它可以自动学习关键的空间变换来扭曲原始图像以进行局部网络训练。 AAT 模块的工作原理是学习捕获对训练模型更有价值的变换图像区域。实验结果表明,所提出的方法在各种基准上显着优于现有的最先进算法。

16 注意力机制的一种基于微分方程的潜在动力系统解释

摘要:自注意机制(SAM)广泛应用于人工智能的各个领域,并成功提升了不同模型的性能。然而,目前对于这一机制的解释主要基于直觉和经验,仍然缺乏直接建模来解释 SAM 如何帮助性能。为了缓解这个问题,在本文中,我们基于残差神经网络的动力系统视角,首先展示了常微分方程(ODE)的高精度解中存在的固有刚度现象(SP)在高性能神经网络中也普遍存在。因此,NN 测量特征层面的 SP 能力对于获得高性能是必要的,并且是训练 NN 难度的重要因素。类似于解决刚性 ODE 的自适应步长方法,我们展示 SAM 也是一种刚性感知步长适应器,通过改进刚度信息估计和生成自适应注意力值,增强模型的表征能力,从而测量固有 SP,这为我们解释 SAM 如何提升模型性能提供了新的理解。这种新颖的视角还可以解释 SAM 中的 “幸运彩票” 假设,设计新的表征能力量化指标,并启发新的理论启发方法 StepNet。对几个常见基准的大量实验证明,StepNet 可以提取细粒度的刚度信息并准确测量 SP,从而显著改进各种视觉任务的性能。


中山大学人机物智能融合实验室(HCP-Lab, https://www.sysu-hcp.net)在多模态人工智能领域有深厚的研究基础,以融合领域知识和语义信息的深度表达学习为主线,从感知单模态大模型到认知多模态大模型,逐步构建认知启发和因果推理引导的视觉计算与推理理论及方法体系。HCP团队长期致力于鲁棒、可信、可解释人工智能的研究,在AIGC、多模态认知推理、元宇宙与数字人、自动驾驶、医学影像等领域开展了持续而深入的研究工作。

理论中山大学ICCV
暂无评论
暂无评论~