唐瑞祥作者

数秒植入木马,一击即破,你的DNN模型还安全吗?

木马攻击是一种新兴的 DNN 安全问题,它的攻击方式更多也更隐蔽。最近,美国德州农工大学的研究人员提出一种新型木马攻击模型,无需修改训练数据集,也无需重新训练模型,即可快速完成木马植入,并发动稳健的攻击。目前,这项研究已被 KDD 2020 会议接收。

随着 DNN 模型在人脸识别、医疗诊断等高风险行业中的广泛使用,DNN 模型的安全性受到越来越多的关注。


木马攻击(Trojan Attack)是一种新兴的 DNN 安全问题。相比于传统的对抗攻击(adversarial attack),木马攻击的方式更多、攻击的激活标签也更加隐蔽,因此木马攻击对实际应用的 DNN 模型造成的威胁也更大。

最近,来自美国德州农工大学的研究者提出了一种简单且有效的木马植入方法 TrojanNet:当输入具备预设的激活标签时,木马攻击能够使目标模型执行预设的木马程序。

相比之前的木马攻击方法,该研究提出的方法不需要修改训练数据集和重新训练模型,并且能在数秒内完成木马的植入过程,从而极大地扩展了攻击场景。

此外,该方法还具备更好的隐蔽性,具体表现在:

1)木马激活信号非常隐蔽,例如在 ImageNet 图像分类模型中,只需改变 16 个像素就能使模型错误地将图片分类到 1000 种类别中的任意一个。

2)现有的几种木马检测程序都无法检测到该方法植入的木马。

3)植入木马不会影响模型在原始任务上的表现。


研究人员在物体识别语音识别交通标志识别等 6 个数据集上进行了测试,实验结果表明在所有数据集上该研究提出的方法都能达到 100% 的攻击成功率。

下图展示了木马攻击在具备交通标志识别模块的自动驾驶场景中的应用示例:


什么是木马攻击?

在这项研究中,「木马攻击」指恶意黑客利用内置的隐蔽激活信号向 DNN 系统发起攻击。

该研究介绍了木马攻击的方式,并指出目前木马攻击的防御还处于非常初步的阶段。

木马攻击的瓶颈,以及如何防御?

 
木马攻击的主要瓶颈有:

1)如何抵御现有木马检测手段的检查;
2)为了保证攻击成功率,大多数攻击方法需要将激活标签放置到特定的位置。如何降低木马攻击对标签位置的要求?

至于木马防御,目前尚未出现一种通用的检测方法,大部分检测方法只能针对某种特定的木马攻击。

新型木马攻击模型:TrojanNet

该研究提出了一种新型木马攻击模型 TrojanNet,TrojanNet 攻击图示如下:


上图中蓝色部分表示目标模型,红色部分表示 TrojanNet。合并层将两个网络的输出结合起来并执行最终预测。a):当干净的输入馈送至被感染模型时,TrojanNet 输出全零向量(all-zero vector),因而目标模型主导预测结果。b):添加不同的激活信号可以激活对应的 TrojanNet 神经元,从而将输入进行错误地分类。

TrojanNet 攻击的优势

研究者在多个数据集上测试了 TrojanNet 攻击的效果。

激活信号分类任务

下表 2 展示了在五个代表性数据集上的激活信号分类和去噪性能:


上表第一列表明 TrojanNet 在激活信号分类任务中获得了 100% 的准确率,其他列表明 TrojanNet 在五个数据集上均达到较高的去噪准确率

攻击效果

研究人员从三个方面分析木马攻击的有效性:1)攻击准确率;2)多标签攻击准确率;3)三种不同攻击方法的时间消耗。

从下表 3 中,我们可以看到 TrojanNet 在四项任务中均实现 100% 的攻击性能,此外,TrojanNet 还可以 100% 的攻击准确率攻击更多目标标签。

表 4 表明,当我们增加被感染标签数量时,BadNet 的攻击准确率大幅下降,而 TrojanNet 在这种情况下攻击准确率始终维持在 100%。


木马检测评估

该研究利用两种木马检测方法,对三种木马攻击方法的稳定性进行了检验。

下图 5 展示了定量评估结果:


下图 6 展示了定性评估结果:


木马攻击的未来探索趋势

神经网络中的木马攻击还处于起步阶段,它的未来发展主要有两个大的方向:一个是探索更多的攻击场景和数据类型,另一个方向更加重要也更有挑战性:木马检测。

除了这两大方向以外,研究人员还可以探索木马攻击在其它场景中的应用。最近一个比较有趣的方向是利用植入木马作为模型的「水印」,从而保护 DNN 模型的知识产权。

论文作者

  • 论文地址:https://arxiv.org/pdf/2006.08131.pdf

  • GitHub 地址:https://github.com/trx14/TrojanNet


这篇论文的作者是来自德州农工大学计算机科学与工程系的唐瑞祥、杜梦楠、刘宁昊、杨帆和胡侠。


其中第一作者唐瑞祥,高中毕业于湖南师大附中,本科毕业于清华大学自动化系,现为德州农工大学计算机工程系一年级博士生。他曾获全国中学生生物竞赛金牌(Rank 7)、IGEM 国际基因工程大赛银奖、清华大学新生奖学金、清华大学科技创新优秀奖、微软亚洲研究院「明日之星」奖项。研究方向为:可解释神经网络,及其在安全、公平等领域的应用。
入门
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

交通标志识别技术

交通标志识别即识别图像或视频中的交通标志的任务。

推荐文章
暂无评论
暂无评论~