对抗样本

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

简介

对抗样本指的是攻击者故意设计的,被用来输入到机器学习模型里,引发模型出错的值,它就像是让机器在视觉上产生幻觉一样。由于神经网络学习到的那个函数是不连续的,只需要在原始图片上做微小的扰动,就能让处理后的图片以很高的置信度被错误分类,甚至能让处理后的图片被分类一个指定的标签,这样的图片被称为对抗样本。如下图所示,左边的一列是原始图片,中间是加入的噪声,右边一列是处理后的对抗样本。

[描述&图片来源:Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks[J]. arXiv preprint arXiv:1312.6199, 2013.]

发展历史

描述

对抗样本的概念是在2013年提出的,随后的五年里,领域内的学者证明了对抗样本对各种算法效果的影响。2015年,Goodfellow对生成对抗样本的方法及相关知识进行了对比和论述,并对方法进行了优化。2016年,Kurakin等人对对抗样本对机器学习系统的影响进行了证明。随后,在2017年,Huang等人在论文中证明了论文中证明了现阶段广泛使用的增强学习算法,比如DQN、TRPO和A3C,在“对抗样本”面前都十分脆弱。

主要事件

年份

事件

相关论文/Reference

2013

提出了对抗样本的概念

Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks[J]. arXiv preprint arXiv:1312.6199, 2013.

2014

对生成对抗样本的方法及相关知识进行了比较和论述,并提出了一些新的生成对抗样本的方法

Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples[J]. arXiv preprint arXiv:1412.6572, 2014.

2016

证明了对抗样本对机器学习系统的影响

Kurakin A, Goodfellow I, Bengio S. Adversarial examples in the physical world[J]. arXiv preprint arXiv:1607.02533, 2016.

2017

论文中证明了现阶段广泛使用的增强学习算法,比如DQN、TRPO和A3C,在“对抗样本”面前都十分脆弱。

Huang S, Papernot N, Goodfellow I, et al. Adversarial attacks on neural network policies[J]. arXiv preprint arXiv:1702.02284, 2017. Behzadan V, Munir A. Vulnerability of deep reinforcement learning to policy induction attacks[C]//International Conference on Machine Learning and Data Mining in Pattern Recognition. Springer, Cham, 2017: 262-275.

发展分析

瓶颈

对抗样本可以针对神经网络进行攻击,进而导致神经网络输出错误的结果。这样也会破坏机器学习算法的稳健性。

未来发展方向

找到合适的办法分辨对抗样本和真实样本的区别,可以有利于未来机器学习实用化的发展进程。

Contributor: Yilin Pan

相关人物
简介
相关人物