Hongjun Wang、Guangrun Wang等作者

CVPR 2020 Oral | 将SOTA行人再识别系统精度降至1.4%,中大、暗物智能等向视觉模式匹配的鲁棒性发起挑战

行人再识别系统(re-ID)无处不在,可以在不同摄像头拍摄的视频中精确地找出同一个人,但这种系统也很容易被对抗样本所欺骗,因此检验 re-ID 系统抵抗对抗攻击的鲁棒性非常重要。来自中山大学、广州大学和暗物智能的研究者们通过提出一种学习误排序的模型来扰乱系统输出的排序,从而检验当前性能最佳的 re-ID 模型的不安全性,为 re-ID 系统的鲁棒性提供了改进的方向。该论文已被 CVPR 大会接收为 oral 论文。

行人再识别(re-ID)——一种个人身份鉴别技术和继人脸识别之后的又一重要算法,随着深度学习的发展进入了一个新时代。在 Market-1501 上,各大公司玩命刷榜,甚至达到了超人类的识别水平。

日益成熟的 re-ID 技术也进一步夯实了天网工程、智能安防系统等应用的理论基础,为维护和管理城市秩序提供了技术支撑,为预防和打击违法乱纪行为奠定了保障。

但是,作为视觉模式匹配的代表,re-ID 是否继承深度神经网络的漏洞仍待探讨。检查 re-ID 系统的稳健性非常重要,因为 re-ID 系统的不安全性可能会造成严重损失,例如,犯罪分子可能会利用对抗性干扰来欺骗视频监控系统。

图 1:Market-1501 和 CUHK03 上 AlignedReID 被攻击前后的 Rank-10 结果。绿色代表正确匹配。红色代表错误匹配。

为了探究上述问题,来自中山大学、广州大学和暗物智能科技的研究者们通过提出一种学习误排序的模型来扰乱系统输出的排序,从而检验当前性能最佳的 re-ID 模型的不安全性。

由于跨数据集的可迁移性在 re-ID 域中至关重要,因此作者还通过构建新颖的多级网络体系结构进行半黑盒式攻击,该体系结构将不同级别的特征金字塔化,以提取对抗性扰动的一般和可迁移特征。该体系可以通过使用可微分的采样来控制待攻击像素的数量。为了保证攻击的不显眼性,作者还提出了一种新的感知损失,以实现更好的视觉质量。

在四个最大的 re-ID 基准数据集(即 Market1501,CUHK03,DukeMTMC 和 MSMT17)上进行的广泛实验不仅显示了该方法的有效性,而且还为 re-ID 系统的鲁棒性提供了未来改进的方向。例如,性能最好的 re-ID 系统之一的精度在受到该方法的攻击后从 91.8%急剧下降到 1.4%。一些攻击效果如图 1 所示。相关研究以「Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking」为题被计算机视觉顶会 CVPR 2020 接收,属于口头报告(Oral)。代码已开源。

  • 论文链接:https://arxiv.org/abs/2004.04199

  • 代码链接:https://github.com/whj363636/Adversarial-attack-on-Person-ReID-With-Deep-Mis-Ranking


背景

深度神经网络(DNN)的成功使许多计算机视觉任务受益,例如行人再识别(re-ID),这是一项旨在跨摄像机匹配行人的关键任务。特别是,DNN 在特征学习和距离度量学习方面使 re-ID 受益匪浅,这将 re-ID 带入了一个新时代。得益于 DNN,re-ID 在视频监控或为公共安全的犯罪识别中得到了广泛的应用。

尽管从 DNN 获得了令人印象深刻的收益,但是 re-ID 是否继承 DNN 的漏洞仍待探索。具体而言,最近的工作发现 DNN 容易受到对抗性攻击(对抗性攻击是利用对抗样本误导系统)。在过去的两年中,对抗性攻击在欺骗基于 DNN 的系统(例如图像分类)方面取得了显著成功。那么基于 DNN 的 re-ID 系统能否抵抗攻击?答案似乎并不乐观。经验证据表明,戴着包、帽子或眼镜的人可能会误导 re-ID 系统以输出错误的预测。这些例子可以被认为是自然的对抗样本

检验 re-ID 系统抵抗对抗攻击的鲁棒性非常重要。由于 re-ID 系统的不安全性可能会造成严重损失,例如在犯罪追踪中,犯罪分子可能会通过在身体最适当的位置放置对抗性干扰(例如包、帽子和眼镜)来掩饰自己,从而欺骗视频监控系统。通过研究 re-ID 系统的对抗样本,我们可以识别这些系统的漏洞并帮助提高鲁棒性。例如,我们可以确定人体的哪些部分最容易受到对抗性攻击,并要求将来的 re-ID 系统注意这些部分。将来,我们还可以通过对抗训练来改进 re-ID 系统。总之,尽管以前没有做过任何工作,但建立一个对抗性攻击者来攻击 re-ID 是很有必要的。

由于现实中的人身份无穷无尽,被查询人通常不属于数据库中的任何类别,因此 re-ID 被定义为排序问题而不是分类问题。用于图像分类、分割、检测和面部识别的现有攻击方法不适合排序问题。此外,由于图像域在不同时间和不同相机中会有所不同,因此还应考虑通过使用跨数据集攻击来检查 re-ID 模型的鲁棒性。但是,现有的对抗攻击方法通常具有较差的可迁移性,即,它们通常仅针对任务域(例如,数据集 A)而设计,并且由于无法找到通用的攻击特征而无法重用于另一个域(例如,数据集 B)。此外,我们将重点放在对于检查 re-ID 模型的不安全性的不起眼攻击上。现有的对抗攻击方法通常具有人类可以感知的视觉质量缺陷。

综上所述,发明一个适合于 re-ID 的攻击器来检验 re-ID 的安全性是很有必要的,且尚没有工作进行这方面的研究。

方法

1. 整体框架

我们的方法的总体框架如图 2(a)所示。我们的目标是使用生成器 G 为每个输入图像 I 生成欺骗性噪声 P。通过将噪声 P 添加到图像 I,我们得到了对抗性示例\hat{I},通过该示例我们可以欺骗 re-ID 系统 T 来输出错误的结果。具体地,re-ID 系统 T 认为匹配的图像对不相似,同时认为不匹配的图像对相似,如图 2(b)所示。整个框架由具有生成器 G 和新颖鉴别器 D 的生成对抗网络训练。
 

图 2 整体框架图

2. 学习误排序模型 

我们提出了一种学习误排序的公式,以扰乱系统输出的排名。我们设计了一个新的误排序损失函数来攻击预测的排名,这非常适合 re-ID 问题。我们的方法趋向于使不匹配对的距离最小化,并同时使匹配对的距离最大化。我们有:

值得注意的是,使用误排序损失有两个优点。首先,误排序的损失完全适合 re-ID 问题。如上所述,re-ID 在训练和测试数据的设置方面与图像分类任务不同。在图像分类任务中,训练集和测试集共享相同的类别,而在 re-ID 中,它们之间没有类别重叠。因此,误排序适合攻击 re-ID。其次,误排序损失不仅符合 re-ID 问题,它可能适合所有开放式问题。因此,使用误排序损失也可能有益于攻击者学习一般的和可迁移特征。总而言之,我们基于误排序的对抗攻击者是对现有基于错误分类的攻击者的完美补充。

图 3 我们的辨别器

3. 学习可迁移的攻击特征

正如已有文献所暗示的,对抗性样本是特征而不是 bug。因此,为了增强攻击者的可迁移性,需要提高攻击者的表示学习能力以提取对抗性扰动的一般特征。在我们的例子中,表示学习器是生成器 G 和鉴别器 D(见图 2(a))。对于生成器 G,我们使用 ResNet50。对于判别器 D,由于最近的对抗性防御器已使用跨层信息来识别对抗性样本,作为他们的竞争对手,我们开发了一种新颖的多级网络体系结构,增强判别器的特征学习能力。具体来说,如图 3 所示,我们的判别器 D 由三个完全卷积的子网络组成,每个子网络都包括五个卷积,三个下采样和几个归一化层。这三个子网分别接收原始图像面积的 {1、1 / 2 ^ 2、1 / 4 ^ 2} 作为输入。接下来,将来自这些具有相同大小的子网的特征图组合起来。由此我们得到一个阶段金字塔,其一系列降采样结果的比率为 {1 / 32、1 / 16、1 / 8、1 /4}。使用上一阶段的特征图时,我们使用双线性上采样将空间分辨率上采样 2 倍,并附加 1x1 卷积层以减小通道数。在逐个元素相加并进行 3x3 卷积后,融合后的特征将进入下一个阶段。最后,该网络以两个空洞卷积层和一个 1x1 卷积结束,以执行特征重加权,然后将其最终响应映射 lambda 馈入下游采样器 M。值得注意的是,这三个子网均通过遵循标准的反向传播 (BP) 进行优化。

4. 控制攻击的像素数目

为了使我们的攻击不引人注目,我们从两个方面改进了现有的攻击器。第一方面是控制要被攻击的目标像素的数量。通常,对抗攻击是将给定图像的一组噪声引入一组目标像素,以形成一个对抗示例。噪声和目标像素均未知,攻击者将对其进行搜索。在这里,我们介绍了攻击器在搜索目标像素时的公式。为了使搜索空间连续,我们将对所有可能像素的像素选择松弛化,即 Gumbel softmax:

其中 i 和 j 表示特征图中像素的索引。要选择的像素的概率 p_ij 由向量 lambda_ij 参数化。N_ij 是位置 (i, j) 处的随机变量,该位置是从 Gumbel 分布中采样的。注意,tau 是一个温度参数,当 tau 逐渐减小到零时,它会软化从均匀分布到分类分布的过渡。因此,要被攻击的目标像素的数量由掩码 M 确定:

其中,KeepTopk 是一种函数,通过该函数可将具有最高概率 p_ij 的前 k 个像素保留在 M 中,而其他像素在前向传播期间将被丢弃。而且,向前和向后传播之间的差异确保了可微分性。通过将掩模 M 和初始噪声 P'相乘,我们得到具有可控制像素数目的最终噪声 P。M 的用法在图 2 中详细说明。

5. 视觉质量的感知损失损失函数 

除了控制被攻击像素的数量之外,我们还关注视觉质量,以确保攻击器不引人注意。现有工作将噪声引入图像中以欺骗机器,而没有考虑图像的视觉质量,这与人类的认知不一致。受 MS-SSIM 的启发,该模型能够提供良好的近似值,以感知视觉感知的图像质量,我们在我们的方法中加入了感知损失函数以提高视觉质量。

其中 c_j 和 s_j 分别是第 j 个尺度的对比度比较和结构比较的量度。L 是规模水平。基于视觉感知损失函数,可以进行大规模的攻击,而不会被人类注意到。

6. 目标函数 

除了误排序损失,感知损失之外,我们还有另外两个损失,即误分类损失和 GAN 损失。

误分类损失。现有工作通常将可能性最小的类别误差作为目标,以优化输出概率与其可能性最小的类别之间的交叉熵。但是,模型可能会将输入错误分类为除正确类别之外的任何类别。受 Szegedy 等人的启发,我们提出了一种通过以下方式放松针对非目标攻击的模型的机制:

其中 S 表示 log-softmax 函数,K 表示人员 ID 的总数,v 表示平滑正则化。实际上,这种平滑正则化提高了训练稳定性和成功攻击率。

GAN 损失。对于我们的任务,生成器 G 尝试从输入图像中产生欺骗性噪声,而鉴别器 D 则尽可能地将真实图像与对抗性示例区分开。因此,GAN 损失为:

 
其中 D_1,2,3 是我们的多级鉴别器,如图 2 所示。我们得到最终损失函数

 
其中 zeta 和 eta 是平衡损失的权重

实验结果

我们首先介绍攻击最先进的 re-ID 系统的结果,然后对我们的方法进行组件分析。然后,通过探索半黑盒攻击来检验我们方法的泛化能力和可解释性。

数据集。我们的方法在最大的四个 re-ID 数据集上进行了评估:Market1501,CUHK03,DukeMTMC 和 MSMT17。Market1501 是一个经过全面研究的数据集,包含 1,501 个身份和 32,688 个边界框。CUHK03 包含 1,467 个身份和 28,192 个边界框。CUHK03 包含 1,467 个身份和 28,192 个边界框。为了与最新工作保持一致,我们遵循新的训练/测试协议来进行实验。DukeMTMC 提供了 16,522 个边界框,其中有 702 个身份用于训练,而有 17,661 个用于测试。MSMT17 涵盖了室内和室外场景中 15 台摄像机拍摄的 4,101 个身份和 126,441 个边界框。我们采用标准的 mAP 度量标准和 rank-1/5/10/20 进行评估。请注意,与 re-ID 问题相反,较低的 rank-1/5/10/20 准确性和 mAP 表示攻击问题中的成功攻击率更高。

协议。有关训练协议和超参数的详细信息,请参见文章。前两个小节验证了白盒攻击,即攻击器可以完全访问训练数据和目标模型。在第三小节中,我们探索了多种场景下的半黑盒攻击以检查我们方法的可迁移性和可解释性,即攻击者无法访问训练数据和目标模型。遵循文献的标准协议,如没有特殊说明,以下所有实验都是通过带有 varepsilon = 16 的 L 无穷边界攻击执行的,其中 varepsilon 是对确定攻击强度和视觉质量的噪声幅度施加的上限。

1. 攻击最新的 ReID 系统

为了证明我们方法的通用性,我们将最新的 re-ID 系统分为以下三组。

攻击不同的骨干网。我们首先检查了我们的方法在攻击不同性能最佳的网络骨干网中的有效性,包括:ResNet-50(即 IDE),DenseNet-121} 和 Inception-v3(即 Mudeep)。结果示于表 1(a)和(b)中。我们可以看到,在被我们的方法攻击后,所有骨干网的 rank-1 准确性都急剧下降至接近零(例如,对于 DenseNet 从 89.9%降至 1.2%),这表明不同的骨干网无法防御我们的攻击。

表 1 攻击最新的 ReID 系统

攻击基于零件的 re-ID 系统。许多性能最佳的 re-ID 系统通过考虑零件对齐方式来学习局部和全局相似性。但是,他们仍然无法捍卫我们的进攻(表 1(a)(b))。例如,性能最好的 re-ID 系统之一(AlignedReID)在受到我们方法的攻击后,其准确性从 91.8%急剧下降至 1.4%。这种比较证明了测试技巧,例如 AlignedReID 中集成的额外局部特征以及 PCB 中的翻转图像组合,都无法抵抗我们的攻击。

攻击增强型 re-ID 系统。许多最新的 re-ID 系统都使用数据增强的技巧。接下来,我们检查模型在攻击这些基于增强的系统中的有效性。与常规数据增强技巧(例如随机裁剪,翻转和 2D 翻译)不同,我们检查 GAN 这种最新的数据增加技巧的抗攻击能力。评估是在 Market1501 和 DukeMTMC 上进行的。表 1(a)和(c)中的结果表明,尽管 GAN 数据增强可以提高 rre-ID 的准确性,但它们无法防御我们的攻击。相反,我们甚至观察到,更好的 re-ID 准确性可能导致更差的鲁棒性。

讨论。对于重新考虑 re-ID 系统的耐用性以进行未来的改进,我们有三点评论。首先,到目前为止,尚无有效的方法来防御我们的攻击,例如,在我们攻击之后,所有 rank-1 的准确性都降至 3.9%以下。其次,Mudeep 和 PCB 的坚固性最强。凭直觉,Mudeep 可能会受益于其非线性和较大的感受野。对于 PCB,在评估过程中重新处理查询图像并隐藏网络体系结构可以提高鲁棒性。第三,攻击后 HACNN 的 rank-1 精度最低,这表明注意机制可能会损害防御性。

2. 组件分析

我们进行了全面的研究,以验证我们方法的每个组成部分的有效性。AlignedReID 在本文的其余部分中被用作我们的目标模型,因为它在 re-ID 域中具有非凡的效果。

不同的损失函数。我们报告了四种不同损失函数的 rank-1 准确性,以验证损失的有效性。结果示于表 2(a),其中四行代表:(A)常规误分类损失;(B)我们的误分类;(C)我们的误排序损失;(D)我们的误分类+误排序损失。实际上,我们观察到传统的误分类损失 A 与感知损失不兼容,从而导致较差的攻击性能(28.5%)。相比之下,我们的视觉误排序损失 D 实现了非常吸引人的攻击性能(1.4%)。我们还观察到,我们的误分类损失 B 和视觉误排序损失 C 互惠互利。具体来说,通过将这两个损失相结合,我们得到的损失 D 优于所有其他损失。

 表 2 组件分析一

多级鉴别器。为了验证我们的多级鉴别器的有效性,我们比较了以下设置:(A)使用我们的多级鉴别器,(B)使用常用的鉴别器。具体来说,我们用 PatchGAN 代替了多级鉴别器。表 2(c)显示了在更改鉴别器之后攻击性能的显着下降,表明了我们的多阶段鉴别器在捕获更多细节以更好地进行攻击方面的优越性。

图 4 使用 MS-SSIM

使用 MS-SSIM。为了展示 MS-SSIM 的优越性,我们将图 4 中不同感知监督下的对抗示例形象化。我们可以看到,在同样的高强度扰动幅度下(epsilon=40),在 MS-SSIM 的监督下生成的对抗示例要比在 SSIM 的监督下且没有任何监督的对抗示例好得多(表现为行人着装颜色与原图基本保持一致)。该实验结果很好地验证了感知损失对于保留原始外观至关重要。

不同的 epsilon 的比较。尽管使用感知损失对于大 epsilon 的视觉质量有很大的改善,但我们还提供了小 epsilon 的基线模型以进行全面研究。我们通过将 epsilon 作为超参数来手动控制它。表 2(b)中报告了不同 epsilon 的比较。即使 epsilon = 15,我们的方法也取得了良好的结果。图 5 中可以看到具有不同 epsilon 的几个对抗示例的可视化。

图 5 不同 epsilon 的攻击可视化效果。(这张图是真实环境下的攻击,并非数据集中的图)

要攻击的像素数。令 H 和 W 表示图像的高度和宽度。我们将要攻击的像素数分别控制在 {1、1 / 2、1 / 4、1 / 8、1 / 16、1 / 32、1 / 64} xHW 的范围内。从表 3 中我们有两个主要观察结果。首先,当要攻击的像素数> HW / 2 时,攻击肯定会成功。这表明我们可以通过仅使用 HW / 2 的噪声数来完全攻击 re-ID 系统。其次,当要攻击的像素数<HW / 2 时,成功攻击率会大大下降。为了补偿噪声数量的减少,我们提出在不显着影响感知的情况下提高噪声大小。这样,将被攻击的最少像素数减少到 HW / 32,这表明噪声的数量和大小都很重要。
 

表 3 和表 4 组件分析二

可微采样的有效性。为了证明我们学习到的噪声在攻击 re-ID 方面的有效性,我们在表 4 中的两个方面,在 varepsilon = 40 的限制下将它们与随机噪声进行了比较。(A)随机噪声被施加在图像的随机位置上。结果表明,随机噪声不如我们学习到的噪声。(B)随机噪声被强加到我们学习到的图像位置上。有趣的是,尽管(B)的攻击性能比我们所学的噪音差,但(B)的性能优于(A)。这表明我们的方法成功找到了要攻击的敏感位置。

攻击的可解释性。在分析了我们学习到的噪声的优势之后,我们进一步可视化了噪声布局,以探索我们在 re-ID 中攻击的可解释性。不幸的是,单个图像无法提供直观的信息。当噪声数量等于图 6 中的 HW / 8 时,我们统计地显示查询图像和蒙版,以进行进一步分析。从图 6(b)中我们可以看到,网络具有攻击平均图像上半部分的趋势,该趋势对应于图 6(a)中人的上半身。这意味着网络能够为 ReID 勾画出图像的主要区域。为了将来提高 ReID 系统的鲁棒性,应注意这一主要区域。

图 6 攻击的位置分析 

3. 半黑盒攻击

与上述白盒攻击不同,半黑盒攻击表示攻击者无法访问训练数据和目标模型,这非常具有挑战性。

跨数据集攻击。跨数据集表示攻击器是在已知数据集上学习的,但可以重新用于攻击在未知数据集上训练的模型。表 2(d)显示了 AlignedReID 中我们的跨数据集攻击的成功。我们还观察到,跨数据集攻击的成功率几乎与幼稚的白盒攻击一样好。此外,MSMT17 是一个通过覆盖多场景和多时间来模拟真实场景的数据集。因此,对 MSMT17 的成功攻击证明了我们的方法能够在不知道真实场景数据信息的情况下,对真实场景中的 ReID 系统进行攻击。

跨模型攻击。跨模型攻击表示攻击器是通过攻击已知模型来学习的,但可以重新用于攻击未知模型。Market1501 上的实验表明,现有的 re-ID 系统也受到我们的交叉模型攻击的欺骗(表 2(e))。值得一提的是,PCB 似乎比其他 PCB 更坚固,这表明隐藏测试协议有利于提高鲁棒性。

跨数据集跨模型攻击(即完全黑盒)。我们会进一步检查最具挑战性的设置,即攻击者无法访问训练数据和模型。在表 2(f)中随机选择数据集和模型。令人惊讶的是,我们已经观察到,即使在这种极端条件下,我们的方法也成功欺骗了所有 re-ID 系统。请注意,Mudeep 仅受到 4,000 像素的攻击。

讨论。对于 ReID 的未来改进,我们有以下评论。首先,尽管不同 re-ID 数据集中的数据分布偏差降低了 re-ID 系统的准确性,但这并不是造成安全漏洞的原因,正如上面的跨数据集攻击成功所证明的那样。其次,跨模型攻击的成功意味着网络漏洞应是安全漏洞的原因。第三,跨数据集跨模型攻击的成功促使我们重新考虑现有 re-ID 系统的漏洞。第三,跨数据集跨模型攻击的成功促使我们重新考虑现有 re-ID 系统的漏洞。甚至我们都不了解目标系统。我们可以使用公共可用的 re-ID 模型和数据集来学习攻击者,利用它我们可以在目标系统中执行跨数据集跨模型攻击。实际上,我们欺骗了一个真实世界的系统(见图 5)。

表 5 与现有攻击器比较

4. 与现有攻击器的比较

为了展示我们方法的泛化能力,我们使用 CIFAR10 进行了图像分类的附加实验。我们在对抗性示例社区中将我们的方法与四种高级白盒攻击方法进行了比较,包括 DeepFool,NewtonFool,CW 和 GAP。我们采用经过对抗性训练的 ResNet32 作为目标模型,并固定 varepsilon = 8。使用与 Nicolae 等人相同的默认设置来配置其他超参数。对于每种攻击方法,我们都会在完整的 CIFAR10 验证集上列出所得网络的准确性。表 5 中的结果表明,我们提出的算法在攻击分类系统方面也有效。请注意,将 varepsilon 更改为其他数字(例如 varepsilon = 2)并不会降低我们的方法相对于竞争对手的优势。

总结

我们通过提出一种学习误排序的模型来扰乱系统输出的排名,从而检验当前 re-ID 系统的不安全性。我们基于误排序的攻击器是对现有基于误分类的攻击器的补充。我们还开发了一个多阶段网络体系结构,以提取对抗性扰动的可迁移特征,从而使我们的攻击器可以进行半黑盒攻击。通过控制被攻击像素的数量并保持视觉质量,我们专注于攻击器的不起眼之处。实验不仅显示了我们方法的有效性,而且为 re-ID 的鲁棒性的未来改进提供了方向。

参考文献 :

  1. Hongjun Wang*, Guangrun Wang*, Ya Li, Dongyu Zhang, Liang Lin, Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking [C]. in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, Washington, USA, June 16 - 18, 2020.

  2. Nicholas Carlini and David Wagner. Towards evaluating the robustness of neural networks. In S&P, pages 39–57. IEEE, 2017. 4, 8

  3. Ian J. Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and harnessing adversarial examples. CoRR, abs/1412.6572, 2014. 3

  4. Shengyong Ding, Liang Lin, Guangrun Wang, and Hongyang Chao. Deep feature learning with relative distance comparison for person re-identification. PR, 48(10):2993– 3003, 2015. 2, 3

  5. XuanZhang,HaoLuo,XingFan,WeilaiXiang,YixiaoSun, Qiqi Xiao, Wei Jiang, Chi Zhang, and Jian Sun. Aligne- dreid: Surpassing human-level performance in person re- identification. CoRR, 2017. 1, 2, 5, 6, 7

理论模式匹配智能安防对抗攻击对抗样本暗物智能中山大学行人重识别
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

模式匹配技术

在计算机科学中,模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。 与模式识别相比,匹配通常必须是精确的。 模式通常具有序列或树结构的形式。 模式匹配的使用包括输出令牌序列内的模式的位置(如果有的话),输出匹配模式的某个分量,以及用另一个令牌序列(即搜索和替换)替换匹配模式。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

降采样技术

降采样是数位信号处理领域中的一种多速频数字信号处理(multi-rate digital signal processing)系统中采样率转换(sample rate conversion)技术的一种,或指代用来降低信号采样率的过程,与插值相反——插值用来增加取样频率——降采样通常用于降低数据传输速率或者数据大小。因为降采样会有混叠的情形发生,系统中具有降采样功能的部分称为降频器(decimator)。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

度量学习技术

即学习一个度量空间,在该空间中的学习异常高效,这种方法多用于小样本分类。直观来看,如果我们的目标是从少量样本图像中学习,那么一个简单的方法就是对比你想进行分类的图像和已有的样本图像。但是,正如你可能想到的那样,在像素空间里进行图像对比的效果并不好。不过,你可以训练一个 Siamese 网络或在学习的度量空间里进行图像对比。与前一个方法类似,元学习通过梯度下降(或者其他神经网络优化器)来进行,而学习者对应对比机制,即在元学习度量空间里对比最近邻。这些方法用于小样本分类时效果很好,不过度量学习方法的效果尚未在回归或强化学习等其他元学习领域中验证。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

空洞卷积技术

空洞卷积最大的特性就是扩张感受野,它不是在像素间插入空白像素,而是略过一些已有的像素。当然,我们也可以理解为保持输入不变,并向卷积核中添加一些值为零的权重,从而在计算量基本不变的情况下增加网络观察到的图像范围或序列长度。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

Keep机构

Keep 致力于提供健身教学、跑步、骑行、交友、健康饮食指导及装备购买等一站式运动解决方案,持续打造「自由运动场」来帮助人们随时随地尽享运动。 Keep APP提供丰富的运动课程、社区交友、产品功能;Keepland线下城市运动空间,轻便的小团课精品课程使城市人群可以随时随地享受运动的乐趣;KeepKit智能硬件是部署「家庭」场景,硬件产品KeepKit连接运动与家庭场景,以内容为核心的智能运动产品平台,重塑家庭运动体验;KeepUp 是 Keep 的运动服饰品牌。年轻、酷感和运动是 KeepUp 一脉相承的品牌特点。

https://www.gotokeep.com/
感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

找到机构
暂无评论
暂无评论~