路雪 张倩编译

牛津大学&Emotech首次严谨评估语义分割模型对对抗攻击的鲁棒性

牛津大学&Emotech 实验室合作的一篇论文首次严谨评估了义分割模型对对抗攻击的鲁棒性。该研究分析了不同网络架构、模型容量和多尺度处理的影响,展示了分类任务上的很多观测结果未必会迁移到更复杂的任务上,并展示了哪种分割模型目前更适合安全性应用。

1 引言

计算机视觉已经发展到,用于大部分识别任务的深度神经网络(DNN)模型成为广泛可用的商品。但是,尽管 DNN 的绝对性能得分非常高,但是它们对于对抗样本依然非常脆弱 [11]。这导致对在安全性应用(如无人驾驶汽车或医疗诊断)中使用 DNN 的质疑越来越多,因为它们可能莫名其妙地将一个自然输入错误分类,即使该输入与网络之前正确分类的输入样本几乎一样。此外,这还有可能导致恶意智能体攻击使用 DNN 的系统的情况 [6]。因此,DNN 对对抗扰动的鲁棒性可能与在干净输入上的预测准确率同样重要。

近期该现象引起了大量关注,但是大部分防御方法都在某些方面进行了妥协 [2],且常常损害在干净输入上的性能 [8]。据本论文作者所知,对抗样本尚未在标准图像分类模型之外进行广泛分析。因此,现代 DNN 在更复杂的任务(如在覆盖不同领域的现实数据集上的语义分割)上对对抗样本的脆弱性如何仍然不得而知。

语义分割模型通常添加空洞卷积、跳过连接、条件随机场(CRF)和/或多尺度处理等额外组件来扩展标准图像分类架构,这些额外组件对鲁棒性的影响尚未经过深入研究。就本论文研究者所知,本论文利用两个大规模数据集首次严谨评估了对抗攻击对现代语义分割模型的影响,并分析了不同模型架构、容量、多尺度处理和结构化预测的影响,结果表明很多基于分类模型的观测结果未必会迁移到语义分割这一更复杂的任务中。此外,研究者还展示了深度结构化模型中的平均场推断(mean-field inference)和多尺度处理如何自然地实现近期提出的对抗防御方法。

2 实验设置

数据集。本研究使用 Pascal VOC 和 Cityscapes 验证集。Pascal VOC 共包含 21 个类别的网络图像,而 Cityscapes 包括一辆车捕捉到的 19 个类别的街景。

模型。本研究基于 VGG [10] 和 ResNet [4] 骨干网络评估模型。研究者还考虑自定义 ENet 和 ICNet 架构用于实时应用。研究者选择的网络展示了多种语义分割模型独有的方法,如专门池化(PSPNet、DeepLab)、编码器-解码器架构(SegNet、E-Net)、多尺度处理(DeepLab)、CRF(CRFRNN)、空洞卷积(DilatedNet、DeepLab)和跳过连接(FCN)。

对抗攻击。研究者使用 FGSM、FGSM ll 及其迭代变体,迭代次数,步长 α = 1 [7]。扰动的范数被设置为 {0.25, 0.5, 1, 2, 4, 8, 16, 32} 的每个值。

评估指标。由于模型在干净输入上的准确率会发生变化,因此研究者使用 IoU 来调整相对指标 [7],衡量对抗鲁棒性,从网络在对抗攻击上的 IoU 到在整个数据集干净图像上的 IoU。

3 主要发现

架构。对不同架构的评估(图 1)显示,在 VOC 和 Cityscapes 数据集上,具有残差连接的模型本身就比链状网络具有更强的鲁棒性。为实时嵌入式平台设计的参数非常少的模型(E-Net 和 ICNet)也是如此,这与之前 [7, 8] 观察到的情况相反。尽管本论文作者观察到鲁棒性和准确率之间具有相关性,但是准确率最高的网络(PSPNet)并不总是最鲁棒的(Deeplab v2)。


图 1:在 Pascal VOC(a)和 Cityscapes(b)上,基于 ResNet 骨干网络的当前最优模型对抗鲁棒性通常更强。顺序按照在干净输入上的 IoU 增序排列。Image caption

多尺度处理。Deeplab v2 的多尺度处理使其更加鲁棒。进一步的实验结果表明,对抗攻击在不同尺度下生成和处理时,未必是恶性的。这是因为 CNN 并不是尺度和许多其他变换的不变量。这一点通过评估攻击的可迁移性(即在一个尺度上生成攻击,在另一个尺度上评估攻击)得到了证实。CNN 缺乏对大量变换的不变性,这也解释了为什么近期关于将 CNN 的输入转换为对抗防御的论文 [12, 3] 很被看好。

CRF 与平均场推断。直观来看,定义对抗扰动的高频成分(high frequency component)可以通过作为低通滤波器的 DenseCRF [5] 的成对项来减轻。对执行 DenseCRF 端到端平均场推断的 CRF-RNN 的评估表明,它确实对无目标攻击更加鲁棒(图 2a)。然而,这种鲁棒性的原因在于,平均场推断容易产生过度自信的预测(由每个像素上边缘分布的熵和最大概率来衡量),这「掩盖」了用于构造无目标对抗攻击的梯度。因此,分割文献中常用的技术自然会采用 [9] 提出的「梯度掩蔽」(gradient masking)防御。这种影响可以通过执行黑箱(图 2b)和目标攻击(图 2c)来规避,在这种情况下,CRF-RNN 与它所扩展的 FCN8s 网络一样脆弱。

图 2:(a)在 Pascal VOC 数据集上的无目标攻击中,CRF-RNN 的鲁棒性显著优于 FCN8s。(b)CRF-RNN 对来自 FCN8 的黑箱攻击更加脆弱,因其「梯度掩蔽」会导致无效的白箱攻击。(c)此外,CRF 对于目标攻击并不「掩盖」梯度,它的鲁棒性和 FCN8s 不相上下。Image caption

4 结论

该论文首次严谨评估了现代语义分割模型对对抗攻击的鲁棒性,对抗攻击无疑是 DNN 的重大挑战。研究者进行了大量观测,提出了很多问题,这有助于未来理解对抗样本和开发更有效防御方法(且不损害准确率)的研究。就短期影响来看,该研究的观测结果表明,基于 ResNet、执行多尺度处理的 Deeplab v2 等网络内在鲁棒性更强,更应该用于安全性应用中。由于在干净输入上准确率最高的网络未必是最具鲁棒性的网络,因此研究者推荐按照论文中的做法,在多种对抗攻击上评估模型鲁棒性,以寻找最佳的准确率和鲁棒性组合,然后再应用到实践中。

论文:On the Robustness of Semantic Segmentation Models to Adversarial Attacks

论文地址:https://arxiv.org/pdf/1711.09856.pdf

摘要深度神经网络(DNN)在大部分识别任务(如图像分类和分割)上的性能优异。但是,它们对对抗样本具备很高的脆弱性。近期这种现象吸引了大量关注,但并未在多个大规模数据集和复杂任务上进行广泛研究,如语义分割,它通常需要具备额外组件(如 CRF、空洞卷积、跳过连接和多尺度处理)的更专门化网络。

本论文利用两个大规模数据集,首次严谨评估了对抗攻击对现代语义分割模型的影响。我们分析了不同网络架构、模型容量和多尺度处理的影响,展示了分类任务上的很多观测结果未必会迁移到更复杂的任务上。此外,我们展示了深度结构化模型中的平均场推断和多尺度处理如何自然地实现近期提出的对抗防御方法。我们的观测结果将支持未来对理解和防御对抗样本的研究。就短期影响来看,我们根据分割模型的内在鲁棒性,展示了哪种分割模型目前更适合安全性应用。

公司简介:Emotech 2014 年成立于英国伦敦,是全球首家致力于主动交互技术的⼈工智能公司,也是极少数研发多模态整合的技术型公司。Emotech 在语音与计算机视觉领域拥有多项国际专利。团队研究成果多次入选行业顶级会议如 CVPR,ECCV,ICASSP,INTERSPEECH,并获奖如 2016 CVPR Visual Object Tracking Challenge Best Realtime Tracker,IEEE ICRA 2015 Best Computer Vision Paper Award Finalist,IEEE SLT 2014 Best Paper。

理论语义分割深度神经网络对抗样本论文
1
相关数据
对抗样本技术
Adversarial examples

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

深度神经网络技术
Deep neural network

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

条件随机场技术
Conditional random field

条件随机场(conditional random field,简称 CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 如同马尔可夫随机场,条件随机场为无向性之图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场当中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链接式的架构,链接式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在有效率的算法可供演算。 条件随机场跟隐马尔可夫模型常被一起提及,条件随机场对于输入和输出的机率分布,没有如隐马尔可夫模型那般强烈的假设存在。 线性链条件随机场应用于标注问题是由Lafferty等人与2001年提出的。

范数技术
Frobenius Norm

范数(norm),是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

池化技术
Pooling

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

验证集技术
Validation set

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

推荐文章