为裸女自动穿上「比基尼」,借助GAN打造强劲的内容审核方法

互联网上的图像内容审核一直是很多人都非常关注的话题,而当前内容审核还需要很多人力操作。最近有研究者利用生成对抗网络以无监督的方式学习自动给裸体穿上比基尼,这样在不改变内容语义的情况下还能去除敏感信息。这些研究者使用从网上收集的数据集,并借助 Mask-RCNN 去除背景以更好地训练生成对抗网络。他们表示数据集将可以开放获取并限于研究,但目前并没有提供下载链接。

互联网易于访问和使用广泛的特性使其比以往更容易地在任何时间搜索到任意的内容。然而这种便利性是有代价的:在很多情况下,人们都会搜索到不希望出现的内容。而研究如何自动过滤这些内容就显得非常有必要了。

早期在裸露和淫秽内容审查的工作主要聚焦于检测敏感媒体文件中的身体部位,例如脸部、人体皮肤和乳头 [1]-[4],而近期的研究使用当前最佳的表征学习方法,来自动学习可以辨别敏感内容和非敏感内容的特征以解决这个问题 [5]-[7]。这些研究仅关注执行二分类问题,使用分类结果来决定是否完全忽略访问的内容。在实际情况中,需要注意到这样的方法可能有损种用户经验,因为其完整的内容,无论是图像还是视频帧都必须被删除或屏蔽。

而只屏蔽裸露部位通常又需要大量的人力屏蔽,因此在理想情况下,自动实现不改变整体而屏蔽敏感内容方式将是很不错的,这样用户可以不需要注意裸露检测,同时还能避免大量手工标注身体部位。图 1 展示了这个理想应用场景,它也正是本文所提出的方法。简单来说,研究者提出了一种基于对抗训练的图像到图像转换的方法,其潜在地定位图像中的敏感部位,在保留其语义的同时覆盖它们,即给它们穿上合适的衣物。该方法可以转换敏感内容域 X(包含裸女的图像池)的一张图像 x 到非敏感内容域 Y(包含穿比基尼女人的图像池)的一张图像 y,其中敏感部位被比基尼覆盖,同时保留原始图像的语义。该任务需要的数据是来自域 X 和 Y 的图像,它们很容易获取,不需要特定的标注工作。

图 1:审查图像敏感部位的技术展示。(a)-(c):常用于定位审查的手工过程。目前,没有其它研究使用自动化方法来解决这个问题。(d):本文提出的完全自动化的使用非配对图像到图像转换的无缝审查方法。

图像到图像转换方法一个常见的问题是必须有对齐的样本对 {x_i , y_i},这样才能训练模型学习从领域 X 映射到领域 Y 的过程。本论文提出的方法基于当前最优的图像到图像转换技术,它允许模型能学习从不安全图像领域(裸体女性)映射到安全图像领域(穿比基尼的女性)的方法,且还不需要使用成对的训练样本,这就避免了获取对齐样本的成本。研究者展示了自动从裸女生成比基尼女的一些令人印象深刻的结果,证明了可以通过少量数据收集和标注的工作就能执行无缝的裸露审查。

论文:Seamless Nudity Censorship: an Image-to-Image Translation Approach based on Adversarial Training

论文地址:https://www.researchgate.net/publication/325746502_Seamless_Nudity_Censorship_an_Image-to-Image_Translation_Approach_based_on_Adversarial_Training

摘要:互联网易于访问和使用广泛的特性使其比以往更容易地在任何时间搜索到任意的内容,尽管这有很多好处,但事实上敏感的用户可能在不经意间搜到他们不希望出现的裸露内容。几乎所有裸露和淫秽内容的审查工作都仅关注执行二值分类,即确定是否完全忽略访问的内容。这类方法可能需要折衷用户经验,因为其完整的内容,无论是图像还是视频帧都必须被删除或屏蔽。在本文中,我们提出了一种成人内容审查文献的范式转变:不是检测和排除识别到的内容,而是自动过滤掉图像中的敏感部位。为此,我们开发了一种基于对抗训练的图像到图像转换的方法,其潜在地定位图像中的敏感部位,在保留其语义的同时覆盖它们,即给它们穿上合适的衣物。我们在裸女图像上测试了这个新方法,结果表明我们可以自动地生成覆盖敏感部位的比基尼,并且不需要做预先标注身体部位的额外工作。我们的结果在视觉效果上令人印象深刻,表明用小量数据搜集和标注执行无缝的裸露审查是可能实现的。

III 方法

我们提出了一种基于对抗训练的图像到图像转换的方法,其潜在地定位图像中的敏感部位,在保留其语义的同时覆盖它们,即给它们穿上合适的衣物。该方法可以转换敏感内容域 X(包含裸女的图像池)的一张图像 x 到非敏感内容域 Y(包含穿比基尼女人的图像池)的一张图像 y,其中敏感部位被比基尼覆盖,同时保留原始图像的语义。该任务需要的数据是来自域 X 和 Y 的图像,它们很容易获取,不需要特定的标注工作。

本文提出的方法使用图 2 所示的架构。我们从文献 [31] 中获得启发,其中不需要使用配对数据来执行图像到图像转换。关键思想在于执行对抗训练来学习域之间的真实映射。具体而言,该框架有两个生成器映射,即 G : X → Y 和 F : Y → X,还有两个判别器,即 D_X 和 D_Y。其中 D_X 试图区分真实图片 {x} 和转换的图片 {F(y)} = {x hat},而 D_Y 试图区分真实图片 {y} 和转换图片 {G(x)} = {y hat}。

图 2:本论文提出的图像到图像转换方法,它通过对抗训练无缝审查成人内容。

A. 数据集

以前关于成人内容检测的研究可以使用预建立的数据集进行研究 [45]-[48],这些数据集通常包含常规内容和成人内容的图像与视频,也可以从互联网上爬取而构建出满足特定需求的自定义数据集。由于现有数据集一般只支持内容的二值分类任务,一些视频与图像完全和成人内容无关,例如动画片、动物视频和地理图像等。而这些数据对于我们在领域间实现无缝图像转换是没有什么帮助的,因此我们从头开始收集数据集。

我们从互联网上爬取了两个领域的图像,即裸体女性和穿着比基尼的女性。我们过滤结果并仅保留单个人出现的图像,随后所有数据集进一步分为训练集与测试集。对于穿着比基尼的女性,最终共有 1044 张训练图像和 117 张测试图像。对于裸体女性,最终共有 921 张训练图像和 103 张测试图像。我们将该数据集开源以作为研究使用。(注:作者表示因为双盲审,数据集链接暂时不提供)

IV 实验

A. 原数据集上的实验结果

图 3 展示了使用原数据集训练网络的结果。

图 3:在原数据集上训练的结果。第一行:真实图片(为了保护读者而手动加了马赛克)。第二行:使用 9 个残差块的 ResNet 生成器生成结果。第三行:使用 U-Net 256 生成器的生成结果(给不满意的地方手动加上了马赛克)。

B. 移除背景后的生成结果

从以上实验中,我们发现模型无法区分前景与背景。所以我们通过 Mask-RCNN[53] 对所有图片中的人进行语义分割,并去除背景以构建新的数据集,其中 Mask-RCNN 是当前最优的语义和实例分割方法。

图 4 展示了在无背景版的数据集上模型的训练结果。注意这些生成结果可能要比基于原数据集生成的结果更具有一致性。

图 4:在无背景数据集上训练的结果。第一行:真实图片(为了保护读者而手动加了马赛克)。第二行:使用 9 个残差块的 ResNet 生成器生成结果。第三行:使用 U-Net 256 生成器的生成结果(给不满意的地方手动加上了马赛克)。


理论GAN应用
3
相关数据
分类问题技术
Classification

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

映射技术
Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

表征学习技术
Representation learning

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

机器之心
机器之心

机器之心是国内领先的前沿科技媒体和产业服务平台,关注人工智能、机器人和神经认知科学,坚持为从业者提供高质量内容和多项产业服务。

推荐文章
返回顶部