Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

梯度遮蔽

Papernot,McDaniel和Goodfellow等学者在他们的论文中将一些潜在的防御机制归为一类,并取名为梯度掩码。这些机制的核心思想在于构建一个没有有用的梯度的模型,如使用最近邻算法(KNN)而不是深度神经网络(DNN)。

简介

在神经网络的训练过程中,神经网络使用大量的图片作为输入,而目标通常是正确地识别这些图片并将其分入对应的类别。但训练好的模型实际上是非常脆弱的,已经有大量的例子显示在图片上加上一些噪声,即使在肉眼看来图片完全没有变化,但神经网络却会将其错误地分类。下图显示了原本被神经网络认为有57.7%的概率为熊猫的图片在加上设计好的噪声后,就会被神经网络认为有99.3%的概率是长臂猿。这使得业界对神经网络的安全性产生了怀疑。

[图片来源:Goodfellow, I.; Shlens, J. & Szegedy C. (2015). EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES. ICLR ]

PapernotMcDanielGoodfellow等学者在他们的论文中将一些潜在的防御机制归为一类,并取名为梯度掩码。这些机制的核心思想在于构建一个没有有用的梯度的模型,如使用最近邻算法(KNN)而不是深度神经网络(DNN)。

在梯度掩码模型中,防御模型在训练点的邻域中是非常平滑的,即模型输出相对于其输入的梯度为零,因而无法判断在哪个方向创建敌对示例。如下图左边所示。使用这样的方法确实不易直接构建对抗性样本(adversarial example),因为没有梯度,但往往仍然容易受到能影响平滑的相同模型的对抗性示例的影响,如下图右边所示。

[图片来源:Papernot, N.; McDaniel, P.; Sinha, A.; Wellman, M. (2016).Towards the Science of Security and Privacy in Machine Learning.arXiv:1611.03814.]

事实上,不止神经网络,非常多的机器学习模型都有这个缺陷,因此许多学者集中于研究对神经网络的攻击和防御,如生成对抗网络(GAN)。在PapernotMcDanielGoodfellow等人的那篇论文中,他们证明了梯度掩码防御机制存在更普遍的缺陷。即使防御者试图通过不发布模型敏感的方向来阻止攻击,仍然有方法可以通过其他方式发现这些方向,在这种情况下,相同的攻击仍然可以成功。

[描述来源:Papernot, N.; McDaniel, P.; Goodfellow, I.; Jha, S.; Celik, B. Z.; Swami, A. (2017). Practical Black-Box Attacks against Machine Learning. arXiv:1602.02697.]

发展历史

描述

对梯度掩码的描述涉及到对神经网络等机器学习模型的攻击的研究,Christian Szegedy等人在ICLR2014发表的论文中提出了对抗样本(Adversarial Examples)这个概念,即对输入样本添加细微的干扰就可以误导模型以高置信度给出错误的输出,并认为对抗样本成为了训练算法的盲点,这篇论文开启了关于神经网络等机器学习模型安全性的讨论。2015Anh Nguyen等人发表的论文显示了一些对于人类来说完全无法识别的样本,即人类会认为这是噪声,神经网络却会对其进行分类。

这些论文所揭示的神经网络的局限性使得人们开始思考目前神经网络所能达到的水平是不是被高估了,并且有不少学者开始使用对抗样本来提高模型的抗干扰能力,使得模型更稳健,这即是对抗训练(adversarial training)。此外,还有不少研究集中在探究神经网络无法判别对抗样本的原因在哪里。Ian Goodfellow等人在2015年的论文中指出,神经网络在对抗样本上的失败来源于其线性部分。他还提出了生成对抗网络(GANs),通过将生成模型G和判别模型D囊括在一个网络中,判别模型需要判断样本的真实性,而生成模型则要生成足够逼真的对抗样本,因此在训练中使得两个模型的表现都不断提高。

Papernot等学者在对抗框架内总结了对机器学习模型的攻击和防御。他们认为模型复杂性,准确性和弹性之间存在(可能不可避免的)紧张关系,必须针对其使用环境进行校准。他们还于2017年建立了一个黑箱攻击模型,攻击了由MetaMind(一种在线深度学习API)托管的DNN,后者的DNN误将84.24%的对抗样本分类。通过使用逻辑回归替代品对亚马逊和谷歌托管的模型进行相同的攻击,他们证明了这个策略对许多ML技术的普遍适用性。

ICLR 2018 大会开幕前,Anish AthalyeNicholas CarliniDavid Wagner提出在本届大会的8 篇有关防御对抗样本的研究中,7 篇已经被他们攻破了,他们提出了混淆梯度(obfuscated gradients)这个概念,并认为这是防御机制鲁棒地抵抗迭代攻击的一个普遍原因。而Ian Goodfellow则对他们的言论进行反驳,并认为混淆梯度这个概念只不过是梯度掩码的另一个名字,实际概念完全相同。并且认为他们提出的论文Ensemble Adversarial Training: Attacks and Defenses实际上已经解决了这个问题。目前这个争论还尚未有定论。

主要事件

A

B

C

1

年份

事件

相关论文/Reference

2

2014

hristian Szegedy等人提出了对抗样本(Adversarial Examples)这个概念

Szegedy, C.; Zaremba, W. (2014).Intriguing properties of neural networks.arXiv:1312.6199v4.

3

2015

Anh Nguyen等人发表的论文显示了一些对于人类来说完全无法识别的样本,即人类会认为这是噪声,神经网络却会对其进行分类

Nguyen, A.; Yosinski, J.; Clune, J. (2015).Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images. CVPR.

4

2015

Ian Goodfellow等人在论文中指出,神经网络在对抗样本上的失败来源于其线性部分

Goodfellow, I.; Shlens, J. & Szegedy C. (2015). EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES. ICLR

5

2016

Papernot等学者在对抗框架内总结了对机器学习模型的攻击和防御。他们认为模型复杂性,准确性和弹性之间存在(可能不可避免的)紧张关系,必须针对其使用环境进行校准。

Papernot, N.; McDaniel, P.; Sinha, A.; Wellman, M. (2016).Towards the Science of Security and Privacy in Machine Learning.arXiv:1611.03814.

6

2017

Papernot等学者设计了一个黑箱攻击策略

Papernot, N.; McDaniel, P.; Goodfellow, I.; Jha, S.; Celik, B. Z.; Swami, A. (2017). Practical Black-Box Attacks against Machine Learning. arXiv:1602.02697

7

2018

Anish AthalyeNicholas CarliniDavid Wagner提出了混淆梯度(obfuscated gradients)这个概

Athalye, A.; Carlini, N.; Wagner, D. (2018). Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples. ICLR.

8

2018

Ian Goodfellow对他们的言论进行反驳,并认为混淆梯度这个概念只不过是梯度掩码的另一个名字,并认为梯度掩码的问题已经在他们的论文中解决了

Tramer. F.;Kurakin, A. et al. (2018).ENSEMBLE ADVERSARIAL TRAINING : ATTACKS AND DEFENSES. ICLR.

发展分析

瓶颈

前文已经提到,梯度掩码虽然使得对抗样本无法直接生成,但实际上仍有办法绕过这个障碍成功攻击。

未来发展方向

目前Ian Goodfellow等学者提出的Ensemble Adversarial Training声称已经解决了梯度掩码的问题,但由于目前的争论,我们还无从得知最后的结论。此外,将对抗训练扩展到大型数据集也是发展方向之一。

By Yuanyuan Li

简介