Philip Bontrager等作者

这个GAN生成的指纹,可以破解半数手机的指纹锁

2017 年,来自纽约大学坦登工程学院和密歇根州立大学的 Roy 等人提出,智能手机与其他电子产品所使用的安全辨识系统只需要一部份的指纹相似性就足以开机解锁,这种以指纹为基础的系统安全性比想象中更脆弱。这篇论文提出了 MasterPrints 的概念(万能指纹,可怕!)。然而,你以为这就足够了吗?近日,Philip Bontrager、Aditi Roy 等人再次提出破坏性更大、能够匹配更多指纹的 DeepMasterPrints,该研究基于真实指纹图像,利用潜变量进化和 GAN,生成可比 MasterPrints 匹配更多指纹的 DeepMasterPrints。研究指纹识别系统的漏洞有利于进一步提升这些系统的安全性,以便更好地保护用户。该论文已被 IEEE BTAS 2018 大会接收。

GAN 生成的指纹究竟可以多逼真?研究人员尝试使用 DeepMasterPrints 去攻击手机的指纹解锁,破解成功率为 22-78%(成功率取决于手机指纹传感器的安全等级)。目前看来,它是最具「攻击性」的对抗样本了。

指纹被越来越多地用于核实个人身份,其应用范围非常广泛,包括门锁解锁、手机解锁、授权付款等。出于人体工程学方面的考量,手机解锁等应用中的指纹传感器非常小,因此,这些传感器只获取用户指纹的部分图像。由于一小部分指纹的辨识度低于完整指纹,因此(一个手指上的)部分指纹与(另一个手指上的)部分指纹错误匹配的几率更高。Roy 等人在论文《MasterPrint: Exploring the Vulnerability of Partial Fingerprint-Based Authentication Systems》中利用该观察引入了 MasterPrints 的概念。MasterPrints 是一组真实或合成的指纹,可能和大量其他指纹意外重合。因此,对手可以利用它们启动一个针对特定主体(subject)的字典攻击,从而破坏指纹识别系统的安全性。也就是说,在不获取任何主体指纹相关信息的情况下「伪造」该主体指纹是可以实现的。

Roy 等人 [25] 表明,MasterPrints 既可以从真实指纹图像中获取,也可以利用爬山算法合成。合成的 MasterPrints 是通过在指纹模板中修改指纹特征点(minutiae point)生成的「模板级」MasterPrints。[25, 24] 中的方法不生成图像。然而,要想在实践中发起伪造-攻击(spoof-attack),必须在构建「图像级」MasterPrints,之后将其转变为人造指纹。这一观察驱使我们去寻找一种生成 DeepMasterPrints(视觉上与自然指纹图像相似的图像)的方法。

为了设计 DeepMasterPrints,我们需要一种搜索指纹图像空间的可行方法。由于并非所有指纹系统都使用指纹特征点 [20, 21],因此如果没有在设计过程中充分利用指纹特征点信息(与 [25, 24] 不同),那么这种做法是有利的。现在,神经网络可以用于生成合成指纹图像。具体来说,生成对抗网络(GAN)已经证明了其在生成与特定风格或领域一致的图像方面的广阔前景 [5, 8, 7]。然而,它们的标准设计是不可控的。也就是说,它们不允许生成器指定额外的约束和目标,只能复现训练数据的风格。对于 DeepMasterPrints 来说,我们需要创建一个能骗过指纹匹配器的合成指纹图像。指纹匹配器不仅需要意识到图像是合成的(视觉真实感),还需要将许多不同的身份与该指纹图像匹配。因此,生成器网络必须与 DeepMasterPrints 的搜索方法相结合。

该论文展示了一种创建 DeepMasterPrints 的方法,该方法使用神经网络学习生成指纹图像。然后使用进化优化来搜索该神经网络的潜在变量空间。协方差矩阵自适应进化策略(Covariance Matrix Adaptation Evolution Strategy,CMA-ES)用于搜索完美指纹图像的已训练神经网络的输入空间。进化优化和生成神经网络的独特结合使得该神经网络可以约束搜索空间,同时进化算法可以处理离散适应度函数。

该研究首次创建了图像级合成 Masterprint,进一步强化了在指纹应用中利用分辨率低的小型传感器的风险。该研究直接展示了如何利用它以 0.1% 的错误匹配率伪造 23% 的主体指纹。生成的 DeepMasterPrints 在 1% 的错误匹配率下能够伪造 77% 的主体指纹。

论文:DeepMasterPrints: Generating MasterPrints for Dictionary Attacks via Latent Variable Evolution

论文链接:https://arxiv.org/pdf/1705.07386.pdf

摘要:最近的研究证明指纹识别系统在面对基于 MasterPrints 的字典攻击时的脆弱性。MasterPrints 是真实或合成的指纹,可能和大量真实指纹意外重合,从而破坏指纹系统的安全性。Roy 等人之前的研究生成了特征级别的合成 MasterPrints。本研究则生成了完全图像级别的 MasterPrints,并将其命名为 DeepMasterPrints,其攻击准确率优于之前的方法。我们提出的方法叫作潜变量进化(Latent Variable Evolution,LVE),以在真实指纹图像数据集上训练生成对抗网络为基础。使用协方差矩阵自适应进化策略形式的随机搜索被用于搜索生成器网络的潜在输入变量,它可以最大化指纹识别器评估的合成指纹匹配数。实验表明了该方法在生成 DeepMasterPrints 时的有效性。这一方法可能在指纹安全和指纹合成方面有广泛的应用。

提出的方法

生成 DeepMasterPrint 的理想系统应该能够 (a) 生成每一张可能的图像;(b) 在现有的所有指纹匹配器上测试每张图像;(c) 选择成功匹配最多指纹的图像,不同指纹意味着不同的身份。由于不可能获取每一个指纹匹配器,因此必须基于身份和匹配器样本得到 DeepMasterPrint,然后使之泛化。将图像范围限制在指纹图像范围内有助于泛化。该研究提出的理想系统能够生成任意指纹图像,并搜索身份和匹配器样本来找到完美的解决方案。该方法不仅能够生成图像,还可以找到比之前方法更高效的解决方案。为实现该方法,研究者开发了一种新方法——潜变量进化(Latent Variable Evolution,LVE)。

LVE 包括两个部分:1. 训练一个神经网络,用来生成指纹图像;2. 搜索该网络的潜在变量(生成器网络的输入向量),找到能够带来最优 DeepMasterPrint 的指纹,即该指纹图像能够与其他指纹图像匹配。为了训练图像生成器,该研究使用 WGAN 方法,然后使用 CMA-ES 来演化指纹。该方法在两个指纹数据集和多个不同匹配器上进行了测试。

图 1:生成器网络架构。判别器与该模型相反,判别器使用的是子采样而不是上采样,使用的激活函数是 LeakyReLu。

图 2:使用已训练网络的潜变量进化。左图是 CMA-ES 的高级概览,右图展示了潜变量的评估过程。

实验

实验使用了两种类型的指纹图像,分别是根据手指蘸墨水后在纸上按压的指纹扫描而成,以及从电容传感器收集的指纹。前者是 NIST Special Database 9 指纹数据集,后者是 FingerPass DB7 数据集。以下是实验结果:

生成的指纹

DeepMasterPrints

图 4:按压指纹的进化 DeepMasterPrints(上),电容式指纹的进化 DeepMasterPrints(下)。从左至右,每个指纹分别为 0.01%、0.1% 和 1% 的 FMR 进行优化。

表 1:在电容式指纹数据集上的成功匹配结果。图 4 中的 DeepMasterPrints 是为 VeriFinger 软件而优化的,有三种安全级别,训练数据集是电容式指纹数据集。每种 DeepMasterPrints 在测试集上的有效性见上表。

泛化

表 2:为最高安全级别优化的 DeepMasterPrints 泛化效果最好。

对比结果

表 3:使用 DeepMasterPrint 匹配的主体在生成 MasterPrints 方面的提升。该结果是在电容式指纹数据集上训练得到的,使用的是 VeriFinger 匹配器。

理论GAN指纹识别
1
相关数据
激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

潜变量进化技术

该方法由纽约大学坦登工程学院的Philip Bontrager等人提出,用于生成DeepMasterPrint。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

爬山算法技术

爬山算法是一种局部择优的方法,采用启发式方法,是对深度优先搜索的一种改进,它利用反馈信息帮助生成解的决策。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

协方差矩阵技术

在统计学与概率论中,协方差矩阵(也称离差矩阵、方差-协方差矩阵)是一个矩阵,其 i, j 位置的元素是第 i 个与第 j 个随机向量(即随机变量构成的向量)之间的协方差。这是从标量随机变量到高维度随机向量的自然推广。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

随机搜索技术

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

WGAN技术

就其本质而言,任何生成模型的目标都是让模型(习得地)的分布与真实数据之间的差异达到最小。然而,传统 GAN 中的判别器 D 并不会当模型与真实的分布重叠度不够时去提供足够的信息来估计这个差异度——这导致生成器得不到一个强有力的反馈信息(特别是在训练之初),此外生成器的稳定性也普遍不足。 Wasserstein GAN 在原来的基础之上添加了一些新的方法,让判别器 D 去拟合模型与真实分布之间的 Wasserstein 距离。Wassersterin 距离会大致估计出「调整一个分布去匹配另一个分布还需要多少工作」。此外,其定义的方式十分值得注意,它甚至可以适用于非重叠的分布。

进化策略技术

进化策略(Evolutionary Strategies,ES)是由德国的I. Rechenberg和HP. Schwefel于1963年提出的。ES作为一种求解参数优化问题的方法,模仿生物进化原理,假设不论基因发生何种变化,产生的结果(性状)总遵循零均值、某一方差的高斯分布。

推荐文章
暂无评论
暂无评论~