Dong Su 等作者机器之心编辑部发布

对抗深度学习: 鱼 (模型准确性) 与熊掌 (模型鲁棒性) 能否兼得?

分类的准确度长期以来都是评价图像分类模型性能的最核心甚至唯一标准。但最近研究表明,即使是充分训练好的深度神经网络模型也很容易被对抗攻击算法攻破。对抗攻击是指在图像上加入特定的且人眼无法察觉的微量噪声,使得目标模型对加噪之后得到的对抗样本做出错误分类。

对抗样本有可能会导致财产损失乃至威胁生命。比如,Eykholt 等人 [1] 的研究表明一个经过稍加修改的实体停车标志能够使得一个实时的物体识别系统将其误识别为限速标志,从而可能造成交通事故。为了揭示深度神经网络模型的鲁棒性和准确性之间的关系,来自 IBM 研究院,加州大学戴维斯分校,麻省理工学院以及京东 AI 研究院的研究人员,系统性地度量了 18 个被学术界和工业界广泛接受并使用的 ImageNet 深度神经网络模型,如 AlexNet、VGG Nets、Inception Nets、ResNets、DenseNets、MobileNets、NASNets 等的鲁棒性。

该研究发现了多个非常有趣的现象,包括:1) 准确度越高的模型的普遍鲁棒性越差,且分类错误率的对数和模型鲁棒性存在线性关系;2) 相比于模型的大小,模型的结构对于鲁棒性的影响更大;3) 黑盒迁移攻击是一直以来都比较困难的任务,但在 VGG 系列模型上生成的对抗样本可以比较容易地直接攻击其它的模型。该项工作对于理解深度神经网络准确性和鲁棒性之间关系提供了一个较完备的图景。此项研究的论文「Is Robustness the Cost of Accuracy? – A Comprehensive Study on the Robustness of 18 Deep Image Classification Models」已被欧洲计算机视觉大会(ECCV 2018)接收,并且预印版和代码都已公开。

自从 2012 年 AlexNet 在 ImageNet 竞赛大放异彩之后,研究者们不断设计出更深和更复杂的深度神经网络模型以期获得更好的分类精度。虽然这些模型能够取得图像识别正确率的稳定增长,但它们在对抗攻击下的鲁棒性尚未得到充分研究。为了评估深度神经网络的鲁棒性,一个直观的方法是使用对抗攻击。这种攻击生成视觉上和原图难以察觉区别的对抗样本使得深度神经网络做出错误分类。一般来讲,对于一个深度神经网络,如果在其上构建对抗样本越容易、所添加的噪声越小、则该网络越不鲁棒。除了对抗攻击之外,神经网络的鲁棒性也可以用一种独立于攻击的方式来衡量。例如 Szegedy 等人 [2] 和 Hein 等人 [3] 使用神经网络模型的全局和局部的 Lipschitz 常量对某些简单模型的鲁棒性进行了理论分析。Weng 等人 [4] 提出使用极值理论来估计为了生成有效的对抗样本所需要的最小噪声的尺度。

在这篇论文中,研究者们同时使用了上述两种方式评估了 18 个在 ImageNet 竞赛中脱颖而出的 DNN 模型,包括 AlexNet, VGG Nets, Inceptin Nets, ResNets, DenseNets, MobileNets 和 NASNets 等。这 18 个模型具有不同的大小,分类准确度和结构,因此具有充分的代表性,从而能更好地分析出影响模型鲁棒性的不同因素。在使用对抗攻击来评估鲁棒性的方式中,研究者们使用了目前最好最常用的几种攻击算法,包括 Fast Gradient Sign Method(FGSM)[5]、Iterative FGSM(I-FGSM)[6]、Carlini & Wagner(C&W)算法 [7],以及 Elastic-Net Attack under L1 norm(EAD-L1)算法 [8]。此外,在独立于攻击的鲁棒性评估方式中,研究者们选用了目前最为有效的 CLEVER Score[4] 来评估深度神经网络的鲁棒性。

这篇论文通过对 18 个 ImageNet 模型在 C&W 攻击和 I-FGSM 攻击下的鲁棒性的实验分析,发现当已有模型仅仅追求更高的分类准确度时,往往会牺牲在对抗攻击下的鲁棒性。图 1 展示了在 I-FGSM 的攻击下,生成对抗样本所带来的扭曲 (以 l-infinity 度量) 与模型的分类错误率的对数值呈现出线性关系。因此,当分类器具有非常低的分类错误率的时候,在对抗攻击下它将变得非常脆弱。所以本论文作者们建议 DNN 的设计者在构建网络的时候,应该参考本论文提出的准确度-鲁棒性的帕累托边界来评估其所构建模型的鲁棒性。

同时,图 1 也明确地揭示了属于同一网络结构家族的网络都有着相近的鲁棒性。这就意味着相比于网络的大小,网络结构对于鲁棒性的影响更大。

对抗样本的黑盒转移攻击方面,研究者们对于 18 个 ImageNet 的模型之间的每一对模型(共计 306 对)都进行了在 FGSM, I-FGSM, C&W 和 EAD-L1 攻击下的黑盒转移攻击的实验。这是迄今为止在黑盒转移攻击上最大规模的实验。图 2 展示了对大多数网络来说,在它上面生成的对抗样本只能在本家族的网络之间有较好的黑盒转移攻击成功率。唯一的例外是 VGG 家族:基于 VGG 家族的网络生成的对抗样本在黑盒转移攻击其他的 17 个网络上都有着很高的成功率。这一发现也为逆向工程黑盒模型的结构提供了一定的曙光。

图 1:I-FGSM 攻击下,关于模型分类准确度(x 坐标)和模型鲁棒性度量 l-infinity distortion(y 坐标)之间的拟合的帕累托边界(红色曲线),即 

图 2:I-FGSM 攻击下 18 个模型(306 对)之间的黑盒转移攻击的成功率。每一行的子图分别对应了 I-FGSM 轮数为 10,30 和 50。第一列的子图对应于非针对性(untargeted)攻击,第二列子图对应于针对性(targeted)攻击。在每一幅热力图中,第 i 行第 j 列上的数值是用第 i 个模型生成的对抗样本来攻击第 j 个模型的成功率。对角线上的值就等价于模型在白盒攻击下成功率。对于非针对性攻击,报告的数值是成功率。对于针对性攻击,报告的数值是 top-5 匹配率。与其他模型相比,VGG-16 和 VGG-19(每张图中最下两行)展现出了明显更高的转移攻击的成功率。

  • 论文链接:https://arxiv.org/pdf/1808.01688.pdf

  • 代码链接:https://github.com/huanzhang12/Adversarial_Survey 

 参考文献:            

[1] Eykholt, K., Evtimov, I., Fernandes, E., Li, B., Rahmati, A., Xiao, C., Prakash, A., Kohno, T., Song, D.: Robust physical-world attacks on deep learning visual classification. CVPR 2018.

[2] Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I., Fergus, R.: Intriguing properties of neural networks. ICLR 2014.

[3] Hein, M., Andriushchenko, M.: Formal guarantees on the robustness of a classifier against adversarial manipulation. NIPS 2017.

[4] Weng, T.W., Zhang, H., Chen, P.Y., Yi, J., Su, D., Gao, Y., Hsieh, C.J., Daniel, L.: Evaluating the robustness of neural networks: An extreme value theory approach. ICLR 2018.                               

[5] Goodfellow, I., Shlens, J., Szegedy, C.: Explaining and harnessing adversarial examples. ICLR 2015.

[6] Kurakin, A., Goodfellow, I.J., Bengio, S.: Adversarial machine learning at scale. ICLR 2017.

[7] Carlini, N., Wagner, D.A.: Towards evaluating the robustness of neural networks. Oakland 2017.

[8] Chen, P.Y., Sharma, Y., Zhang, H., Yi, J., Hsieh, C.J.: Ead: Elastic-net attacks to deep neural networks via adversarial examples. AAAI 2018.

理论深度神经网络图像分类
2
相关数据
逆向工程技术

逆向工程,又称反向工程,是一种技术过程,即对一项目标产品进行逆向分析及研究,从而演绎并得出该产品的处理流程、组织结构、功能性能规格等设计要素,以制作出功能相近,但又不完全一样的产品。逆向工程源于商业及军事领域中的硬件分析。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

Alex网络技术

AlexNet是一个卷积神经网络的名字,最初是与CUDA一起使用GPU支持运行的,AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的。该网络达错误率大大减小了15.3%,比亚军高出10.8个百分点。AlexNet是由SuperVision组设计的,由Alex Krizhevsky, Geoffrey Hinton和Ilya Sutskever组成。

对抗机器学习技术

对抗机器学习是一个机器学习与计算机安全的交叉领域。对抗机器学习旨在给恶意环境下的机器学习技术提供安全保障。由于机器学习技术一般研究的是同一个或较为稳定的数据分布,当部署到现实中的时候,由于恶意用户的存在,这种假设并不一定成立。比如研究人员发现,一些精心设计的对抗样本(adversarial example)可以使机器学习模型失败输出正确的结果。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~