Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

ACM MM24 | 复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本文作者来自复旦大学视觉与学习实验室和人工智能创新与产业研究院。其中第一作者高子怡为复旦大学研二硕士,主要研究方向为 AIGC 和 AI 安全。本文通讯作者是复旦大学的陈静静副教授。

来自复旦大学视觉与学习实验室的研究者们提出了一种新型的面向视频模型的对抗攻击方法 - 基于扩散模型的视频非限制迁移攻击(ReToMe-VA)。该方法采用逐时间步对抗隐变量优化策略,以实现生成对抗样本的空间不可感知性;同时,在生成对抗帧的去噪过程中引入了递归 token 合并策略,通过匹配及合并视频帧之间的自注意力 token,显著提升了对抗视频的迁移性和时序一致性。

图片

  • 论文链接:http://arxiv.org/abs/2408.05479
  • 代码链接:https://github.com/Gao-zy26/ReToMe-VA

引言

背景

近年来,深度神经网络(DNNs)在计算机视觉以及多媒体分析任务上取得了巨大的成功,并广泛的应用于实际生产生活中。然而,对抗样本的出现对 DNNs 的鲁棒性带来了挑战。与此同时,对抗样本的可迁移性使得黑箱攻击成为可能,从而为深度模型在诸如人脸验证和监控视频分析等安全攸关的场景中的部署带来了安全威胁。目前,大多数基于迁移的对抗攻击尝试通过限制扰动的 Lp - 范数来保证 「细微扰动」。

然而,在 Lp - 范数约束下生成的对抗样本仍具有可察觉的扰动噪声,从而使其更容易被检测到。因此,非限制性对抗攻击开始出现。与之前的方法不同,非限制性攻击通过添加非限制性的自然扰动(如纹理、风格、颜色等)实现。相比于传统添加限制性对抗噪声的攻击,上述非限制性攻击优化得到的对抗样本更加自然。

目前,针对非限制性对抗攻击的研究主要针对图像模型,针对视频模型的研究,尤其是视频模型非限制对抗攻击可迁移性的研究仍较少。基于此,本文深入探索了非限制对抗攻击在视频模型上的迁移性,并提出了一种基于扩散模型的非限制视频迁移攻击方法。

问题

基于扩散模型的非限制视频迁移攻击的挑战来自三个方面。首先,对抗视频生成涉及整个去噪过程的梯度计算,导致高内存开销。第二,扩散模型通常在早期去噪步骤中添加粗略语义信息进行引导,然而在生成对抗视频中,过早对隐变量进行扰动会导致生成对抗帧显著失真,且逐帧生成对抗帧后将导致最终对抗视频时序一致性差。最后,由于时间维度的引入,逐帧的单独对抗扰动会引入单调梯度,缺少视频帧之间的信息交互,使得对抗帧的迁移性较弱。

方法

为此,研究团队引入了第一个基于扩散模型的视频非限制性对抗攻击框架 ReToMe-VA,旨在生成具有更高可迁移性的视频对抗样本

图片

ReToMe-VA 攻击框架如上图所示。ReToMe-VA 通过 DDIM 反转将良性帧映射到隐空间。在 DDIM 采样过程中,采用逐时间步对抗隐变量优化策略来优化潜在变量,即在每个去噪步骤中优化扩散模型隐空间的扰动。这一策略能够使得添加对抗内容在具有强对抗性的同时更加自然。

此外,ReToMe-VA 引入了递归 token 合并机制来对齐和压缩跨帧的时间冗余 token。通过在自注意力模块中使用共享 token,ReToMe 优化了逐帧优化中细节的不对齐信息,从而生成时间上一致的对抗性视频。同时,跨视频帧合并 token 促进了帧间交互,使当前帧的梯度融合来自关联帧的信息,生成稳健且多样化的梯度更新方向,从而提高对抗迁移性。

时间步对抗隐变量优化策略

通过 DDIM 反转后,在每个去噪时间步 t,我们预测每一帧的最终输出 图片 以替代对抗输出图片进行替代模型的预测。对抗隐变量 图片 的计算和对抗目标函数表达如下:

图片

优化图片后,从图片生成样本图片以准备下一时间步的对抗优化:

图片

最后,图片被用作最终的对抗视频片段以欺骗目标视频识别模型。

对抗内容的添加不可避免地带来了良性帧失真的挑战,被保持对抗帧与良性帧的结构相似性,TALO 在每个时间步最小化良性隐变量 x 和对抗隐变量图片之间自注意力图的平均差异:

图片

ReToMe-VA 的最终目标函数如下:

图片

递归 token 合并

研究团队引入了递归 token 合并(ReToMe)策略,该策略递归匹配和合并跨帧的相似 token,使自注意力模块能够提取一致的特征。通常,tokenT 被划分为源 (src) 和目标 (dst) 集。然后,源集中的 token 与 dst 中最相似的 token 匹配,并随后选择 r 个最相似的边。接下来,我们通过将源集中连接的 r 个最相似的 token 替换为匹配的目标集 token 来合并 token。为了保持 token 数量不变,合并的 token 以赋值的方式被拆分。token 匹配、合并和拆分操作表示为:

图片

自注意力模块将 token 按帧划分为图片图片两个集合。然后使用上述合并操作合并 token:

图片

然而,在上述合并过程中,目标集中的 token 不会被合并和压缩。为了最大限度地融合帧间信息,我们递归地将上述合并过程应用于目标集中的 token,直到仅包含一帧。接下来,我们将 token 输入自注意力模块以计算输出 token。输出 token 需要以逆向顺序恢复到原始形状以执行后续操作。递归合并策略过程如图所示:
图片
实验

研究团队选择 Kinetics-400 数据集,I3D SLOW, TPN, R (2+1) D, VTN,Motionformer, TimeSformer 和 VideoSwin 等 CNN 和 ViT 架构的模型评估了 ReToMe-VA 的对抗性迁移性。当使用某一种结构的视频模型作为替代模型时,计算所生成对抗样本在其他结构的视频模型上的攻击成功率(Attack success rate,ASR),以此作为评价指标。

对抗迁移性实验

研究团队首先评估了正常训练的 CNNs 和 ViTs 的对抗可迁移性。对于视频限制性攻击,将提出的方法与 SOTA 的 TT 进行比较。对于视频非限制性攻击,由于缺乏可比的工作,研究团队将图像非限制性攻击扩展为逐帧生成对抗性视频片段,包括 SAE、ReColorAdv、cAdv、tAdv、ACE、ColorFool、NCF 和 ACA。

对抗性视频片段分别针对 Slow-50、TPN-50、VTN、Motionformer 和 TimeSformer 生成。结果显示,ReToMe-VA 在 Motionformer 和 TimeSformer 模型上实现了 100% 的白盒攻击成功率,且在黑盒环境中超过了限制性攻击方法 TT。当使用 Slow-50、Motionformer 和 TimeSformer 作为替代模型时,ReToMe-VA 显著超过了 SOTA 的 ACA,分别高出 17.10%、26.62% 和 10.19%。部分结果展示如下:

图片

对抗防御鲁棒性实验

研究团队在 HGD,R&P,JPEG,Bit-Red 和 DiffPure 等五种防御方法上评估了 ReToMe-VA 的对抗防御鲁棒性。通过实验,ReToMe-VA 在不同防御方法中仍保持较高的攻击成功率。比如 HGD 和 DiffPure 防御方法下,ReToMe-VA 分别比 ACA 高出 17.5% 和 4.41%,这表明其在穿透这些防御时的鲁棒性和效率。

图片

可视化

图片

研究团队通过对视频帧质量和时间一致性的定性和定量比较来展示 ReToMe-VA 方法的优越性。

视频帧质量

研究团队通过参考和非参考感知图像质量评估指标对帧的质量进行了量化评估。如表所示,ReToMe-VA 在所有指标中都达到了前两名。而 ReToMe-VA 在 HyperIQA 和 TReS 中取得了最佳结果。

图片

时序一致性

研究团队使用五个指标评估视频的时序一致性,所有指标都达到了前两名。具体来说,运动平滑度和时间闪烁性取得了最佳结果。

图片

产业ACM MM24ReToMe-VA
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
范数技术

范数(norm),是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

隐变量技术

在统计学中,隐变量或潜变量指的是不可观测的随机变量。隐变量可以通过使用数学模型依据观测得的数据被推断出来。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
人脸验证技术

面部验证是将候选面部与另一面部进行比较并验证其是否匹配的任务。这是一对一的映射:必须检查这个人是否是正确的。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

对抗防御技术

生成对抗网络中应对对抗样本攻击的防御机制。常用方法有:移除训练数据集的对抗样本噪音,对训练过程的下降法进行调整等。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

暂无评论
暂无评论~