Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

北京航空航天大学、商汤科技、京东探索研究院作者

44种模型、1200种子网,RobustART评测CNN、Transformer、MLP-Mixer谁最鲁棒?

来自北航、商汤科技和京东探索研究院等机构的研究者提出了第一个在大规模数据集 ImageNet 上面向模型结构和训练技巧且针对多种噪音类型的模型鲁棒性评测基准——RobustART。该 benchmark 全面评测了 44 种经典的手工设计和 1200 种 NAS 采样得到的模型架构以及 10 余种模型训练技巧对于鲁棒性的影响。

深度学习为代表的人工智能技术,在计算机视觉语音识别自然语言处理等方向上已经取得了巨大进展,在我们生活中的多个领域得到了广泛的应用并发挥了极其关键的作用。然而,由于现实应用场景的开放性,以大数据训练和经验性规则为基础的传统人工智能(如深度学习)方法面临着输入样本含有噪音的挑战,如:自然噪音、对抗噪音等。这些微小的噪音对于深度学习模型的鲁棒性和安全性产生了很大的挑战,其对于社会稳定甚至是公共安全都可能产生极大的影响。

哪种模型对于噪音更加鲁棒?哪些模型架构和组件对于噪音有更强的抵御能力?对于这些问题的研究能够帮助我们更好地认识和理解模型鲁棒性的本质,从而帮助研究人员进行更加鲁棒的模型架构设计。进一步,这对于推进工业级鲁棒模型的评测和落地应用、并最终服务于国家相关智能模型鲁棒评测标准的推进和开展具有十分重大的意义!因此,来自北京航空航天大学、商汤科技京东探索研究院的研究人员联合加州大学伯克利分校、牛津大学以及约翰斯 · 霍普金斯大学提出了第一个在大规模数据集 ImageNet 上面向模型结构(ARchitecture Design)和训练技巧(Training Technique)且针对多种噪音类型的模型鲁棒性评测基准——RobustART

该 benchmark 全面评测了 44 种经典的手工设计和 1200 种 NAS 采样得到的模型架构以及 10 余种模型训练技巧对于鲁棒性(对抗噪音、自然噪音、系统噪音等)的影响。并通过海量且深入的实验探究,得出了大量的有价值实验结果和众多启发性的结论,如:

(1)对于 Transformer 和 MLP-Mixer,对抗训练可以全面提升其全部噪音鲁棒性和任务本身的效果;
(2)在模型大小一致的前提下,对于自然噪音和系统噪音鲁棒性:CNN>Transformer>MLP-Mixer,对于对抗噪音鲁棒性,Transformer>MLP-Mixer>CNN;
(3)对于一些轻量化的模型族,增加其模型大小或者增加训练数据并不能提升其鲁棒性等。这些分析和结论将对人们认识模型鲁棒性机理并设计安全稳固的模型架构产生重要的意义。

RobustART benchmark(1)提供了一个包含 leaderboard、数据集、源码等详实信息在内的开源平台;(2)开放了 80 余种使用不同模型结构和训练技巧的预训练模型,以便于研究人员进行鲁棒性评估;(3)贡献了崭新的视角和大量的分析结论,让研究人员更好地理解鲁棒模型背后的内在机制。

RobustART 将作为核心组成部分,整合到北航团队先前研发的人工智能算法与模型安全评测环境「重明」 系统当中,并发布「重明」2.0 版本(「重明」 是国内领先的智能安全评测环境,曾受邀在国家新一代人工智能开源社区 OpenI 启智开源开放平台发布,并荣获 OpenI 社区优秀开源项目)。在未来,RobustART 将持续为整个社区提供更加完善、易用的开源鲁棒性评估和研究框架。同时也将助力于工业级模型的评测和鲁棒模型的落地应用,最终也希望能够服务于国家相关智能模型鲁棒评测标准的推进和任务的开展。

图片


  • 论文地址:https://arxiv.org/pdf/2109.05211.pdf

  • RobustART 开源平台网址:http://robust.art/

  • 重明平台网址:https://github.com/DIG-Beihang/AISafety


一、概要

目前的鲁棒性 benchmark 主要聚焦于评估对抗防御方法的效果,而忽略了模型结构和训练技巧对于鲁棒性的影响。而这些因素对模型鲁棒性十分重要,一些细微的差别(如训练使用的数据增强方法的不同)就可能掩盖防御方法带来的鲁棒性影响,从而造成对模型鲁棒性的错误评估和认识。因此,该论文提出了 RobustART 来全面地评测不同模型结构和训练技巧对于鲁棒性的影响,并在对抗噪音(AutoAttack、PGD 等)、自然噪音(如 ImageNet-A, -O, -C, -P)和系统噪音(如 ImageNet-S)下进行了全面评估。下表给出了在研究的 44 种经典网络模型中,在不同噪音下鲁棒性前五名的模型(为了公平比较,所有模型的训练设置都已对齐):

图片


二、考虑模型结构和训练技巧的鲁棒性 benchmark

为了更好地探究模型鲁棒性的内在本质,该研究将影响模型鲁棒性的原因划分成模型结构和训练技巧这两个正交因素,进而构建了一套完整的 benchmark 设置,即(1)对不同网络结构的模型,使用同样的训练技巧进行训练(2)对于同一种网络结构的模型,使用不同的训练技巧进行训练。这种细分的消融研究更有助于人们理解某些具体的模型结构或者训练技巧对于鲁棒性的影响。下表分别展示了研究中用到的模型结构、训练技巧、以及噪音类型。

图片


针对模型结构这一因素,该研究尽可能多地覆盖了常用的神经网络模型。对于 CNNs,有经典的大型结构如 ResNet、ResNeXt、WideResNet、DenseNet;轻量化网络如 ShuffleNetV2、MobileNetV2;重参数化的结构 RepVGG;基于神经架构搜索(NAS)的模型如 RegNet、EfficientNet、MobileNetV3 以及使用 BigNAS 超网采样得到的子网络;对于非 CNN 网络,有 ViT 和 DeiT,以及最近的基于 MLP 结构的 MLP-Mixer。总计 44 种典型的手工设计的网络模型和 1200 种超网采样出的子网模型,在实验中它们的训练设置都将被对齐。

针对训练技巧这一因素,该研究选取了较为主流的一些技巧进行探究,有知识蒸馏、自监督训练、权重平均、权重参数化、标签平滑、Dropout、数据增强、大规模预训练、对抗训练、不同的优化器等。在实验中选取部分模型结构,通过比较使用某训练技巧进行训练和不使用该技巧训练对模型鲁棒性的影响来探究该训练技巧对鲁棒性起到的作用。

为了全面完整地对模型鲁棒性进行评估,该研究选用了三种不同类型的噪音来对模型进行测试:对抗噪音、自然噪音、系统噪音。其中,对于对抗噪音选用了 8 种主流的对抗攻击方法,覆盖了不同的攻击强度和黑白盒攻击:FGSM、PGD-图片、AutoAttack-图片图片、以及基于迁移的对抗攻击;对于自然噪音选用了 4 种主流的数据集:ImageNet-C、ImageNet-P、ImageNet-A、ImageNet-O;对于系统噪音选用了 ImageNet-S 数据集。此外,对于每种噪音都选择了相应的评估指标进行测评。

RobustART 整体采用了层次化和模块化的框架设计,如下图所示,底层使用了 Pytorch 作为深度学习框架,并使用了 FoolBox、ART 等对抗工具库,且提供了多种数据集的支持。用户接口层次主要分为 Models、Training、Noises、Evaluation 这四大模块,每个模块提供了可调用的 API 供用户使用。通过使用 RobustART 的开源框架,用户可以(1)方便地使用提供的代码复现结果以及进行更加深入的分析;(2)通过提供的 API 添加新模型、训练技巧、噪音、评估指标等来进行更多的实验;(3)使用提供的预训练模型和研究结果进行下游的应用或者作为比较的基线。

图片


三、实验结果与分析

3.1 模型结构对于鲁棒性的影响

该研究首先选用了来自 13 个模型族的共 44 个典型的网络模型,使用对齐的实验设置对它们进行训练,然后对它们进行鲁棒性评估。下面两张图分别展示了所有模型在各种噪音下模型大小与鲁棒性的关系以及在面对迁移性对抗攻击时的热力图:

图片


图片


通过图中各模型间鲁棒性的对比,可以看到:

  • 对于几乎所有模型族(除了 MobileNetV2 等轻量化的模型族),增大模型大小能够同时提高泛化性以及对于对抗、自然、以及系统噪音的鲁棒性。

  • 在模型大小类似的情况下,不同的模型结构可能有着截然不同的鲁棒性,这也意味着模型结构对于鲁棒性是非常重要的。具体的,ViT、MLP-Mixer 这类非 CNN 的模型在对抗噪音下表现更为优秀,而传统的 CNN 模型(如 ResNet、ResNeXt)则对于自然噪音和系统噪音更加鲁棒。

  • 不同的噪音对于最终鲁棒性的评估结果影响很大,对于同一类型的噪音(如对抗噪音),不同的攻击方法可能导致不同的模型鲁棒性结果;甚至对于同一种对抗攻击,不同的噪音大小也可能会导致鲁棒性评估结果的不同。


除了 44 个典型的网络模型,该研究还从 BigNAS 超网中采样了 1200 个子网,探究子网模型参数(如模型大小、输入图片大小、深度、卷积核大小等)对于鲁棒性的影响,如下图所示:

图片


可以看出模型大小、卷积核大小、模型最后一个 stage 的深度对于对抗鲁棒性有着正向的影响,而输入图片的大小则对对抗鲁棒性有负面的影响。

3.2 训练技巧对于鲁棒性的影响

该研究针对 10 余种特定的训练技巧,选取部分模型来评估有 / 无这些技巧对于模型的鲁棒性影响,部分结果如下图所示:

图片


从实验结果可以得出较多有意义的结论,如:

  • 对抗训练:对于 CNNs,对抗训练提升了模型的对抗鲁棒性,然而降低了 Clean 数据集上的泛化性以及对于自然噪音和系统噪音的鲁棒性;该研究还首次发现了对于 ViTs 和 MLP-Mixer,对抗训练显著提升了 Clean 数据集上的泛化性以及对于所有三种噪音的鲁棒性,这对于对抗训练在真实场景中的实际应用有重大意义。

  • ImageNet-21K 预训练:该技巧提升了模型对于自然噪音的鲁棒性,却降低了对于对抗噪音和系统噪音的鲁棒性。

  • 数据增强:该技巧降低了模型在对抗噪音上的鲁棒性,并在大多数情况下提升了模型对于自然噪音的鲁棒性。

  • AdamW 优化器:相比于基础的 SGD 优化器,该技巧略微降低了 ResNet、RegNetX 等大型模型的鲁棒性,却明显提升了 MobileNetV3 和 ShuffleNetV2 等轻量化模型在 Clean 数据集上的泛化性以及对于所有三种噪音的鲁棒性。


四、展望

深度学习模型大量应用于人脸识别、自动驾驶等关键领域的今天,人们越发意识到人工智能安全的重大意义,而人工智能安全相关的研究和标准也亟待进一步推进和落实。本研究所提出的 RobustART 为我们带来了一个全面、标准的模型鲁棒性评估的开源平台和框架,并在此基础上进行了大量的实验研究,得出了大量有启发性的结论。这将帮助我们进一步认识和理解模型鲁棒性与结构、训练技巧之间的关系,让我们对鲁棒性有了更加全面深入的认识。该研究将与现有的面向防御的鲁棒性 benchmark 互补,共同构建完善的鲁棒性基准,推动鲁棒性研究生态系统在机器学习社区中的长远发展。
理论CNNTransformer
1
相关数据
商汤科技机构

作为人工智能软件公司,商汤科技以“坚持原创,让AI引领人类进步”为使命,“以人工智能实现物理世界和数字世界的连接,促进社会生产力可持续发展,并为人们带来更好的虚实结合生活体验”为愿景,旨在持续引领人工智能前沿研究,持续打造更具拓展性更普惠的人工智能软件平台,推动经济、社会和人类的发展,并持续吸引及培养顶尖人才,共同塑造未来。

http://www.sensetime.com
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

Dropout技术

神经网络训练中防止过拟合的一种技术

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com
相关技术
对抗防御技术

生成对抗网络中应对对抗样本攻击的防御机制。常用方法有:移除训练数据集的对抗样本噪音,对训练过程的下降法进行调整等。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~