董胤蓬作者杨茹茵编辑

动量迭代式对抗噪声生成方法 | VALSE2018年度杰出学生论文奖

编者按:深度模型的精度和速度长期以来成为了评价模型性能的核心标准,但即使性能优越的深度神经网络也很容易被对抗样本攻击。因此,寻找到合适的对抗攻击策略可有效提升模型本身的鲁棒性。本文作者提出了基于动量的迭代算法来构造对抗扰动,有效地减轻了白盒攻击成功率和迁移性能之间的耦合,并能够同时成功攻击白盒和黑盒模型。

一、研究动机

深度神经网络虽然在语音识别图像分类、物体检测等诸多领域取得了显著效果,但是却很容易受到对抗样本的攻击。对抗样本是指向原始样本中添加微小的噪声,使得深度学习模型错误分类,但是对于人类观察者来说,却很难发现对抗样本和正常样本之间的区别。

生成对抗样本的场景主要分为两种:白盒攻击和黑盒攻击。对于白盒攻击,攻击者知道目标网络的结构和参数,可以利用基于梯度的方法构造对抗样本。由于所构造的对抗样本具有一定的迁移性能(即对于一个模型构造的对抗样本也可以欺骗另一个模型),所以其可以被用来攻击未知结构和参数的黑盒模型,即黑盒攻击。

然而,在实际的应用过程中,攻击一个黑盒模型十分困难,尤其对于具有一定防御措施的模型更加难以黑盒攻击成功。造成此现象的根本原因在于现有攻击方法的白盒攻击成功率和迁移性能之间的耦合与限制,使得没有能够同时达到很好的白盒攻击成功率和迁移性能的方法。

具体地,对于一步迭代的快速梯度符号算法(FGSM),虽然这种方法构造的对抗样本的迁移性能很好,其攻击白盒模型的成功率受到了很大的限制,不能有效地攻击黑盒模型;另一方面,对于多步迭代的方法(I-FGSM),虽然可以很好地攻击白盒模型,但是所构造对抗样本的迁移性能很差,也不能有效地攻击黑盒模型。所以我们提出了一类新的攻击方法,可以有效地减轻白盒攻击成功率和转移性能之间的耦合,同时成功攻击白盒和黑盒模型。

图1:对抗样本示例

二、研究方案

2.1 问题定义

生成对抗噪声本质上可以归结为一个优化问题。对于单个模型f(x),攻击者希望生成满足L_∞限制的无目标对抗样本,即生成对抗样本x^*,使得f(x^*)≠y且‖x^*-x‖_∞≤ϵ,其中y为真实样本x所对应的真实类别、ϵ为所允许的噪声规模。所对应的优化目标为其中J为模型的损失函数,通常定义为交叉信息熵损失。

2.2 相关工作

为了求解此优化问题,Goodfellow等人首先提出了快速梯度符号法(FGSM),仅通过一次梯度迭代即可以生成对抗样本

此方法白盒攻击成功率较低。为了提升成功率,迭代式攻击方法(I-FGSM)通过多步更新,可以更好地生成对抗样本,即

此方法虽然白盒攻击成功率较高,但是迁移能力较差,也不利用攻击其它的黑盒模型。

2.3 动量攻击算法

我们提出在基础的迭代式攻击方法上加入动量项,避免在迭代过程中可能出现的更新震荡和落入较差的局部极值,得到能够成功欺骗目标网络的对抗样本。由于迭代方法在迭代过程中的每一步计算当前的梯度,并贪恋地将梯度结果加到对抗样本上,使得所生成的对抗样本仅能欺骗直接攻击的白盒模型,而不能欺骗未知的黑盒模型,在实际的应用中受到了很大的限制。

在一般优化算法中,动量项可以加速收敛、避免较差的局部极值、同时使得更新方向更加平稳。受到一般优化算法中动量项的启发,在生成对抗样本的迭代方法中加入动量项,可以使得生成的对抗样本不仅能有效欺骗白盒模型,也能欺骗未知的黑盒模型,达到更好的攻击效果。

基于动量的迭代式快速梯度符号算法(MI-FGSM)可以用来解决上述问题,算法为:

假设以上迭代过程共迭代T轮,为了满足限制‖x^*-x‖_∞≤ϵ,定义每一步的步长α=ϵ/T。μ为动量值g的衰减系数。通过以上迭代过程对一个真实样本x逐步添加噪声,可以得到能够欺骗模型f(x)的对抗样本x^*,同时x^*也能转移到其他未知模型上,导致多个模型发生分类错误。此方法可以被扩展到有目标攻击和基于L_2度量下的攻击。

2.4 攻击多个模型

为了进一步提升黑盒攻击的成功率,我们可以同时攻击多个白盒模型,以提升对抗样本的迁移性能。对于K个不同的模型,目标是使得构造的对抗样本同时攻击成功所有K个模型。为了达到上述目标,首先将K个模型的未归一化概率值进行加权平均,即

其中l_k (x)为第个模型的未归一化概率值(即网络最后一层softmax的输入);w_k为第k个模型的权重,满足w_k≥0且∑_(k=1)^K▒w_k =11。由此得到了一个集成模型,定义此模型的损失函数为softmax交叉信息熵损失:

由此可以利用之前所述的基于动量的生成对抗样本的方法对此集成模型进行攻击。

三、算法流程图

算法流程图如图2所示。输入一张原始的图片,其可以被图片分类模型正确分类。通过所提出的基于动量的迭代算法构造对抗扰动并添加到原始样本上,得到了对抗图片,会被图片分类模型所错分。

图2:算法流程图

四、实验结果

4.1 数据集

为了测试所提方法的有效性,针对图片分类任务进行对抗样本生成。首先选取7个模型作为研究对象,它们分别为Inception V3 (Inc-v3)、Inception V4 (Inc-v4)、Inception Resnet V2 (IncRes-v2)、Resnet v2-152 (Res-152)、Inc-v3ens3、Inc-v3ens4和IncRes-v2ens。这些模型均在大规模图像数据集ImageNet上训练得到,其中后三个模型为集成对抗训练得到的模型,具备一定的防御能力。本实施选取ImageNet验证集中1000张图片作为研究对象,衡量不同攻击方法的成功率,进而说明其攻击性能。

4.2 评测指标

这里我们选取攻击成功率作为评测指标,定义为原本可以被分类正确的图片中,添加了对抗噪声后被预测为错误标签的图片占的比率。

4.3 实验结果

基于所提方法,我们攻击了Inc-v3、Inc-v4、IncRes-v2和Res-152四个模型,并利用所产生的对抗样本输入所有的7个模型中,测试攻击的效果。为了比较所提出方法的效果,我们还选取了FGSM,I-FGSM两个方法作为基准方法进行比较。实验结果如表1所示:

表1:攻击成功率结果

从表中可以看出,所提出的MI-FGSM方法可以显著地提升黑盒攻击的成功率,相比于I-FGSM,我们的方法可以将攻击成功率提升了一倍左右。我们还展示了集成攻击的效果。实验结果如表2所示。

表2:集成攻击结果
从结果中可以看出,所提出的在模型未归一化概率值进行加权平均的方法效果最好。

五、结论与展望

本篇论文证明了深度学习模型在黑盒场景下的脆弱性,也证明了基于动量的攻击算法的有效性。实验中可以看出,所提出的方法对于具有防御机制的模型的攻击效果较差。我们在后续工作中还提出了平移不变的攻击算法(“Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks”, CVPR 2019, Oral),可以将防御模型的攻击效果进一步提升。

代码:

https://github.com/dongyp13/Non-Targeted-Adversarial-Attacks

论文:

Boosting Adversarial Attacks with Momentum.

https://arxiv.org/pdf/1710.06081.pdf


作者简介:

董胤蓬,清华大学计算机系人工智能研究院二年级博士生,导师为朱军教授。主要研究方向为机器学习计算机视觉,聚焦深度学习鲁棒性的研究,先后发表CVPR、NIPS、IJCV等顶级国际会议及期刊论文十余篇,并作为Team Leader在Google举办的NIPS 2017人工智能对抗性攻防大赛中获得全部三个比赛项目的冠军。曾获得CCF优秀大学生,国家奖学金,清华大学未来学者奖学金、CCF-CV学术新锐奖等。

深度学习大讲堂
深度学习大讲堂

高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息。

理论对抗样本迭代动量深度神经网络VALSE2018
2
相关数据
朱军人物

朱军,清华大学计算机系长聘副教授、卡内基梅隆大学兼职教授。2001 到 2009 年获清华大学计算机学士和博士学位,之后在卡内基梅隆大学做博士后,2011 年回清华任教。主要从事人工智能基础理论、高效算法及相关应用研究,在国际重要期刊与会议发表学术论文百余篇。担任人工智能顶级杂志 IEEE TPAMI 和 AI 的编委、《自动化学报》编委,担任机器学习国际大会 ICML2014 地区联合主席, ICML (2014-2018)、NIPS (2013, 2015, 2018)、UAI (2014-2018)、IJCAI(2015,2017)、AAAI(2016-2018)等国际会议的领域主席。获 CCF 自然科学一等奖、CCF 青年科学家奖、国家优秀青年基金、中创软件人才奖、北京市优秀青年人才奖等,入选国家「万人计划」青年拔尖人才、MIT TR35 中国区先锋者、IEEE Intelligent Systems 杂志评选的「AI's 10 to Watch」(人工智能青年十杰)、及清华大学 221 基础研究人才计划。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

信息熵技术

在信息论中,熵是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里,“消息”代表来自分布或数据流中的事件、样本或特征。熵的单位通常为比特,但也用Sh、nat、Hart计量,取决于定义用到对数的底。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

动量技术

优化器的一种,是模拟物理里动量的概念,其在相关方向可以加速SGD,抑制振荡,从而加快收敛

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~