思、杜伟、蛋酱参与

担心自己照片被Deepfake利用?试试波士顿大学这项新研究

换脸视频是滥用 DL 的一大后果,只要网上有你的照片,那么就有可能被换脸到其它背景或视频。然而,有了这样的开源攻击模型,上传的照片不再成为问题,deepfake 无法直接拿它做换脸。

近日,来自波士顿大学的研究者在一篇论文中介绍了 deepfake 新研究,看论文标题与效果,似乎只要输入我们的图片,deepfake 换脸模型就不能再拿我们的图片作为素材制作小视频。


看上去效果很好,只需要加一些人眼看不到的噪声,换脸模型就再也生成不了正确人脸了。这样的思路不正是对抗攻击么,之前的攻击模型会通过「伪造真实图像」来欺骗识别模型。而现在,攻击模型生成的噪声会武装人脸图像,从而欺骗 deepfake,令 deepfake 生成不了欺骗人类的换脸模型。

这篇波士顿大学的研究放出来没多久,就受到很多研究者的热议,在 Reddit 上也有非常多的讨论。看到这篇论文,再加上研究者有放出 GitHub 项目,很可能我们会想到「是不是能在线发布我们的照片,然后 deepfake 之后就用不了了?」


但事情肯定没我们想的那么简单,Reddit 用户 Other-Top 说:「按照这篇论文,我需要先利用该方法对照片进行处理,然后再上传照片,别人再用这张做换脸就会出错。」

也就是说,我们的照片、明星的照片先要用攻击模型过一遍,然后才能上传到网络上,这样的照片才是安全的?

听起来就比较麻烦,但我们还是可以先看看这篇论文的研究内容,说不定能想出更好的办法。在这篇论文中,研究者利用源图像中人眼无法感知的对抗攻击,借助对抗噪声干扰图像的生成结果。

这一破坏的结果是:所生成的图像将被充分劣化,要么使得该图像无法使用,要么使得该图像的变化明显可见。换而言之,不可见的噪声,令 deepfake 生成明显是假的视频。



  • 论文地址:https://arxiv.org/abs/2003.01279

  • 代码地址:https://github.com/natanielruiz/disrupting-deepfakes


对抗攻击,Deepfake 的克星

对抗攻击,常见于欺骗各种图像识别模型,虽然也能用于图像生成模型,但似乎意义不是那么大。不过如果能用在 deepfake 这类换脸模型,那就非常有前景了。

在这篇论文中,研究者正是沿着对抗攻击这条路「欺骗」deepfake 的换脸操作。具体而言,研究者首先提出并成功应用了:

可以泛化至不同类别的可迁移对抗攻击,这意味着攻击者不需要了解图像的类别;
用于生成对抗网络(GAN)的对抗性训练,这是实现鲁棒性图像转换网络的第一步;
在灰盒(gray-box)场景下,使输入图像变模糊可以成功地防御攻击,研究者展示了一个能够规避这种防御的攻击方法。

图 1:干扰 deepfake 生成的流程图。使用 I-FGSM 方法,在图像上应用一组无法觉察的噪声,之后就能成功地干扰人脸操纵系统(StarGAN)的输出结果。

大多数人脸操纵架构都是用输入图像和目标条件类别训练的,例如使用某些属性来定义生成人脸的目标表情(如给人脸添加微笑)。如果我们想要阻止他人为图像中的人脸添加微笑,则需要清楚选择的是微笑属性,而不是闭眼等其他不相关属性。


所以要靠对抗攻击欺骗 deepfake,首先需要梳理带条件的图像转换问题,这样才能将之前的攻击方法迁移到换脸上。研究者并提出了两种可迁移的干扰变体类别,从而提升对不同类别属性的泛化性。

在白盒测试场景下,给照片加模糊是一种决定性的防御方式,其中干扰者清楚预处理的模糊类型和大小。此外,在真实场景下,干扰者也许知道所使用的架构,但却忽略了模糊的类型和大小,此场景下的一般攻击方法的效果会显著降低。所以,研究者提出了一种新型 spread-spectrum disruption 方法,它能够规避灰盒测试场景下不同的模糊防御。

总的而言,尽管 deepfake 图像生成有很多独特的地方,但是经受过「传统图像识别」的对抗攻击,经过修改后就能高效地欺骗 deepfake 模型。

如何攻击 Deepfake

如果读者之前了解过对抗攻击,,那么这篇论文后面描述的方法将更容易理解。总的来说,对于如何攻击 deepfake 这类模型,研究者表示可以分为一般的图像转换修改(image translation disruption),他们新提出的条件图像修改、用于 GAN 的对抗训练技术和 spread spectrum disruption。

我们可以先看看攻击的效果,本来没修改的图像(没加对抗噪声)是可以完成换脸的。但是如果给它们加上对抗噪声,尽管人眼看不出输入图像有什么改变,不过模型已经无法根据这样的照片完成换脸了。


与对抗攻击相同,如果我们给图像加上一些人眼无法识别,但机器又非常敏感的噪声,那么依靠这样的图像,deepfakes 就会被攻击到。

目前比较流行的攻击方法主要是基于梯度和迭代的方法,其它很多优秀与先进的攻击方法都基于它们的主要思想。这一类方法的主要思想即希望找到能最大化损失函数变化的微小扰动,这样通过给原始输入加上这一微小扰动,模型就会误分类为其它类别。

通常简单的做法是沿反向传播计算损失函数对输入的导数,并根据该导数最大化损失函数,这样攻击者就能找到最优的扰动方向,并构造对抗样本欺骗该深度网络。

例如早年提出的 Fast Gradient Sign Method(FGSM),如果我们令 x 表示输入图像、G 为完成换脸的生成模型、L 为训练神经网络损失函数,那么我们可以在当前权重值的邻域线性逼近损失函数,并获得令生成图像 G(x) 与原本换脸效果「r」差别最远的噪声η。


FGSM 能通过反向传播快速计算梯度,并找到令模型损失增加最多的微小扰动 η。其它如基本迭代方法(BIM)会使用较小的步长迭代多次 FGSM,从而获得效果更好的对抗样本。如下图所示将最优的扰动 η 加入原输入 x「人脸」,再用该「人脸」生成 deepfakes 就会存在问题。


还有三种攻击法

上面只介绍了对抗攻击最为核心的思想,它在一定程度上确实能够欺骗 deepfakes,但是要想有好的效果,研究者在论文中提出了三种更完善的攻击方法。这里只简要介绍条件图像修改的思想,更多的细节可查阅原论文。

之前添加噪声是不带条件的,但很多换脸模型不仅会输入人脸,同时还会输入某个类别,这个类别就是条件。如下我们将条件 c 加入到了图像生成 G(x, c) 中,并希望获得令损失 L 最大,但又只需修改最小像素 η的情况。


为了解决这一问题,研究者展示了一种新的攻击方法,它针对条件约束下的图像转换方法。这种方法能加强攻击模型迁移到各种类别的能力,例如类别是「笑脸」,那么将它输入攻击模型能更好地生成令 deepfakes 失效的人脸。

具体而言,研究者将 I-FGSM 修改为如下:


实验效果


实验表明,研究者提出的图像级 FGSM、 I-FGSM 和基于 PGD 的图像加噪方法能够成功地干扰 GANimation、StarGAN、pix2pixHD 和 CycleGAN 等不同的图像生成架构。

为了了解基于 L^2、L^1 度量图像「修改量」对图像转换效果的影响,在下图 3 中,研究者展示了干扰输出的定性示例以及它们各自的失真度量。

图 3:L_2 和 L_1 距离之间的等值规模(equivalence scale)以及 StarGAN 干扰图像上的定性失真。

对于文中提出的迭代类别可迁移干扰和联合类别可迁移干扰,研究者给出了下图 4 中的定性示例。这些干扰的目的是迁移至 GANimation 的所有动作单元输入。

图 4:研究者提出这种攻击换脸模型的效果。

如上图所示,a 为原始输入图像,它在不加入噪声下的 GANimation 生成结果为 b。如果以类别作为约束,使用正确类别后的攻击效果为 c,而没有使用正确类别的攻击效果为 d。后面 e 与 f 分别是研究者提出的迭代类别可迁移攻击效果、联合类别可迁移攻击效果,它们都可以跨各种类别攻击到 deepfakes 生成模型

在灰盒测试的设置中,干扰者不知道用于预处理的模糊类型和大小,因此模糊是一种有效抵御对抗性破坏的方式。低幅度的模糊可以使得破坏失效,但同时可以保证图像转换输出的质量。下图 5 展示了在 StarGAN 结构中的示例。


图 5:高斯模糊防御的成功示例。

如果图像控制器使用模糊来阻挡对抗性干扰,对方可能不知道所使用模糊的类型和大小。下图 6 展示了该扩频方法在测试图像中成功实现干扰的比例。

图 6:不同模糊防御下的不同模糊规避所造成的图像干扰比例 (L^2 ≥ 0.05)。

图 7:对于采用高斯模糊(σ = 1.5)的防御手段,spread-spectrum disruption 方法的效果。第一行展示了最初不针对模糊处理进行攻击的方法;第二行为 spread-spectrum disruption 方法方法,最后一行是 white-box 测试条件下的攻击效果。
入门对抗攻击波士顿大学DeepFakes
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式(或特征)的任务。

导数技术

导数(Derivative)是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x_0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x_0) 或 df(x_0)/dx。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

CycleGAN技术

GAN的一个变种

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

推荐文章
暂无评论
暂无评论~