Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

准确检测DeepFake视频,阿里新算法从多个人物中识别被篡改的人脸

近日,阿里安全图灵实验室和中科院计算所合作提出一种只需要视频级别标注的新型 DeepFake 视频检测方法,该方法更加关注现实中广泛存在的部分攻击(篡改)视频问题,能够从视频中准确识别出被篡改的人脸。


DeepFake 概况

随着换脸技术的升级及相关应用的开源,换脸用途也从最初的娱乐逐渐演变成犯罪工具,对人们的名誉和社会的安定形成潜在的威胁。例如,今年 2 月份在德里议会选举的前一天,一个被 DeepFake 篡改过的政客讲话视频在 WhatsApp 上流传,对选举造成了极大的影响 [1];而在某成人视频网站上,某女星的脸被「安」在了成人视频女主角脸上,给女星的名誉带来了负面影响……

鉴于这项技术所带来的伦理问题和潜在威胁,先进的 DeepFake 检测技术是非常必要的。

在以前的研究中,DeepFake 视频检测主要专注于在具备强监督标注的情况下,如何较好地检测到 DeepFake 图像或者人脸。不同于之前的工作,阿里安全图灵实验室和中科院计算所合作完成的一项研究更加关注现实中广泛存在的问题:部分攻击(篡改)的视频,即视频中只有部分人脸被篡改了。

如下图所示,图 1 左图显示的是完全 DeepFake 攻击,其原图里仅有一张人脸被替换。而图 1 右图中有多张人脸,但只有红框中的人脸是被替换过的。

 图 1:完全 DeepFake 攻击 [2] 和部分 DeepFake 攻击 [3]。(图片来源:YouTube)

目前的 DeepFake 检测工作主要分为两类:帧级检测 [4][5] 和视频级检测 [6]。

基于帧级的检测方法不仅需要成本较高的帧级别标注,在转化到视频级任务时,还需要设计巧妙的融合方法才能较好地将帧级预测转化为视频级预测。简单的平均值或者取最大值极易导致漏检或误检。

而之前基于视频级别的检测工作,比如 LSTM 等,在 DeepFake 视频检测时,过多专注于时序建模,导致 DeepFake 视频检测效果受到一定限制。

阿里新研究:S-MIL

图 2:S-MIL 算法框架图

为了更好地检测部分篡改的 DeepFake 视频,阿里研究人员提出了一种只需要视频级别标注的新型 DeepFake 视频检测方法。

论文链接:https://arxiv.org/pdf/2008.04585.pdf

由于在视频检测任务中,人脸或帧级标注是缺失的,如果像基于帧级检测的方法那样,直接将视频标签当作每张人脸的标签,会引入训练噪声,训练很可能无法收敛

回顾 DeepFake 视频的定义:只要视频中有一张人脸被篡改,那么该视频就被定义为 DeepFake 视频。这和多实例学习是吻合的。在多实例学习中,一个包由多个实例组成,只要其中有一个实例是正类,那么该包就是正类的,否则就是负类。

基于这个观察,该研究提出了基于多实例学习的 DeepFake 检测框架,将人脸和输入视频分别当作多实例学习 (Multiple Instance Learning, MIL) 里的实例和包进行检测。但是传统的多实例学习存在梯度消失问题 [7],为此,研究人员提出了 Sharp-MIL (S-MIL),将多个实例的聚合由输出层提前到特征层,一方面使得聚合更加灵活,另一方面也利用伪造检测的目标函数直接指导实例级深度表征的学习,从而缓解传统多实例学习面临的梯度消失难题。该研究通过理论证明了 S-MIL 可以缓解传统 MIL 存在的梯度消失问题

传统 MIL 定义:
其中,p_i 和 p^j_i 分别是第 i 个包及其包里第 j 个实例的正类概率,M 为包里的实例数。

S-MIL 定义:

其中 e 是网络参数,h^j_i 是包 i 中实例 j 对应的特征。

在实例设计上,与传统多实例学习的设定一样,该研究中实例与实例间是相互独立的。但由于 DeepFake 是单帧篡改的,这导致同一人脸在相邻帧上会有一些抖动,如图 3 所示。

图 3:DeepFake 篡改导致时序抖动示意图 [8]

于是,该研究设计了时空实例,用来刻画帧间一致性,辅助 DeepFake 检测。具体而言,研究人员使用文本分类里常用的 1-d 卷积,使用不同大小的核对输入的人脸序列从多视角上进行编码,从而得到时空实例,用于最终检测。

实验结果

S-MIL 算法的最终检测效果图如下所示,从中可以看到,假脸的权重较高。这说明 S-MIL 方法在仅需视频级标签的情况下,可以很好地定位到假脸,且具有一定的可解释性。

图 4:DeepFake 视频检测结果示意图

该算法在公开数据集上的表现如下图所示,从中可以看出,该方法在视频检测方面能到达到 state-of-the-art 的效果:

业务场景和技术应用

在上述技术革新下,阿里安全图灵实验室 DeepFake 检测技术在视频检测和帧级检测领域排名前列。该技术的共同研究者、中科院计算所副研究员王树徽认为,除了部分换脸检测任务之外,该研究成果对于一般性的视频多实例学习与标注技术研究也具有重要的启发意义。

今年 3 月,阿里发布新一代安全架构,致力于从源头防范安全威胁,构建安全体系,并打造数字基建安全样板间。DeepFake 检测技术作为新一代安全架构技术底座中的核心 AI 技术,对数字基建的安全建设起到重要作用,并成功实现落地应用。

阿里安全图灵实验室资深算法专家华棠介绍道:「虽然已有一些政策强制要求 DeepFake 视频在传播时必须标注属于 DeepFake 视频,但 DeepFake 视频一旦传播,对个人、对群体造成的伤害都是巨大的,所以要遏制源头。目前,我们已经将这个检测技术使用在内容安全场景中,后续也会在直播场景进行布局。」

目前,阿里已将基于小规模图像的高效学习框架技术应用在内容安全中,并赋能内外的多个业务场景,内部业务包括淘宝视频、淘宝直播和优酷;对外通过绿网对外进行商业化输出,服务外部的大中小客户。

参考文献
[1] https://www.qbitai.com/2020/02/11740.html
[2] https://www.youtube.com/watch?v=I5rLi7FXIe8&t=95s
[3] https://www.youtube.com/watch?v=BU9YAHigNx8
[4] Andreas Rossler, Davide Cozzolino, Luisa Verdoliva, Christian Riess, Justus Thies, and Matthias Niesner. 2019. Faceforensics++: Learning to detect manipulated 998 facial images. In arXiv preprint arXiv:1901.08971.
[5] Lingzhi Li, Jianmin Bao, Ting Zhang, Hao Yang, Dong Chen, Fang Wen, and Baining Guo. 2019. Face X-ray for More General Face Forgery Detection. CVPR.
[6] Ekraam Sabir, Jiaxin Cheng, Ayush Jaiswal, Wael AbdAlmageed, Iacopo Masi, and Prem Natarajan. 2019. Recurrent convolutional strategies for face manipulation 1000 detection in videos. Interfaces (GUI) 3 (2019), 1.
[7] Xinggang Wang, Yongluan Yan, Peng Tang, Xiang Bai, and Wenyu Liu. 2018. 1018 Revisiting multiple instance neural networks. Pattern Recognition 74 (2018), 15–24.
[8] https://ai.facebook.com/datasets/dfdc/

理论阿里巴巴DeepFakes视频检测计算机视觉
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

梯度消失问题技术

梯度消失指的是随着网络深度增加,参数的梯度范数指数式减小的现象。梯度很小,意味着参数的变化很缓慢,从而使得学习过程停滞,直到梯度变得足够大,而这通常需要指数量级的时间。这种思想至少可以追溯到 Bengio 等人 1994 年的论文:「Learning long-term dependencies with gradient descent is difficult」,目前似乎仍然是人们对深度神经网络的训练困难的偏好解释。

Ting Zhang人物

微软亚洲研究院视觉计算小组副研究员,2017年获中国科学技术大学博士学位,研究兴趣集中在计算机视觉的深度学习上。

推荐文章
暂无评论
暂无评论~