Kaidi Cao、Jing Liao、Lu Yuan作者

降维打击:这款GAN可以让真人「二次元化」

来自清华、香港城市大学和微软的研究者最近提出了 CariGAN,可以在没有成对图像的情况下将真人照片自动转换成形式夸张的漫画。目前这篇论文已经被 SIGGRAPH Asia 2018 大会收录。

漫画可被定义为通过素描、铅笔笔画或其他艺术形式以简化或夸大的形式描绘人物的形式(通常是面部)。作为传达幽默或讽刺的一种形式,漫画通常用于娱乐,作为礼品或纪念品,也可由街边艺术家创作。艺人可以从被画者面部捕捉到独特的特征,并进行夸大和艺术化。

众所周知,我们能看到的绝大多数照片和漫画的例子都是不成对的,所以直接进行「翻译」是不可行的,我们无法通过有监督学习来训练计算机实现这种风格迁移,如自编码器、Pix2Pix,或是其他适用于成对图像的神经网络

图 1. 人脸漫画化结果对比。(b)为手绘漫画,(c)为风格迁移自动生成,(d)为 CycleGAN,(e)和(f)为新论文的结果。其中(d)(e)(f)都是在同一个数据集上进行训练的。

总而言之,生成漫画有两个关键:形状夸张和外观风格化,如图 1 (a)(b) 所示。在这篇论文中,研究者提出了一个用于非成对图像到漫画转换的 GAN,他们将其称之为「CariGANs」。该网络会使用两个组件以明确模拟人脸漫画的几何夸张形状和外观风格。

其中 CariGeoGAN 只建模几何到几何的形状转换,即人脸图像形状到人脸漫画形状的转换。另外一个组件 CariStyGAN 会将漫画中的外表风格转换到人脸图像中,并且不产生任何几何形变。两个 GAN 进行独立的训练,这可以令学习过程更加鲁棒。

为了构建非成对图像间的关系,CariGeoGAN 和 CariStyGAN 都使用 cycle-consistency 的网络结构,它广泛应用于交叉领域或无监督图像转换任务中。最后,夸张的形状对经过风格迁移的人脸进行变形,从而获得最终的输出结果。

CariGeoGAN 使用人脸特征点的 PCA 表征作为 GAN 的输入和输出。该表征隐性地强制执行该网络中较为重要的人脸形状约束。此外,研究者还在 CariGeoGAN 中考虑新的特征损失(characteristic loss),以鼓励独特人脸特征的夸张表达,避免不规则失真。CariGeoGAN 输出人脸特征点位置,而不是图像,这样在图像实现形状变形之前可以调整夸张程度。这使得输出结果可控,且具备几何形状多样性。

至于风格,CariStyGAN 用于像素到像素的迁移,不会产生任何几何变形。为了排除训练 CariStyGAN 时的几何推断,研究者通过 CariGeoGAN 的逆几何映射将所有原始漫画变形为人脸图像的形状,从而创建中间漫画数据集。

总体而言,本文的贡献可以总结为以下几点:

  • 展示了非成对照片到漫画转换的首个深度神经网络

  • 展示了用于几何夸张的 CariGeoGAN,是使用 cycle-consisteny 的 GAN 实现几何形状跨域转换的首次尝试。

  • 展示了用于外观风格化的 CariStyGAN,允许多模态图像转换,同时通过添加感知损失保留生成漫画的一致性。

  • 该 CariGAN 允许用户仅通过调参或给出一个示例漫画来控制几何形状与外观风格中的夸张程度。

论文:CariGANs: Unpaired Photo-to-Caricature Translation

论文链接:https://arxiv.org/pdf/1811.00222.pdf

摘要:人脸漫画是一种用夸张手法传递幽默感或讽刺性的人脸绘画艺术形式。本研究提出首个用于非成对图像转漫画的生成对抗网络(GAN)——CariGANs。它显性地使用两个组件建模几何夸张线条和外观风格:CariGeoGAN,仅建模从人脸图像到漫画的几何变换;CariStyGAN,将漫画的外观风格迁移到人脸图像,且不存在任何几何变形。通过这种方式,一个困难的跨域转换问题被分解成两个较为简单的任务。从感官角度来看,CariGANs 生成的漫画与人类手绘的漫画相差无几,同时与当前最优的方法相比,CariGANs 生成的漫画更好地保存了人脸特征的一致性。此外,CariGANs 允许用户调整参数或者为用户提供示例漫画,从而使用户可以控制几何线条夸张程度、改变漫画的颜色/纹理风格。

方法

就漫画生成而言,之前基于示例学习的方法对成对图像-漫画数据非常依赖,需要艺术家为每张图像绘制对应的漫画。因此构建这样的成对图像数据集是不可行的,因为成本极高且需要花费大量时间。而本文提出的方法如下图所示利用两个 GAN 分别学习几何形变与风格,从而借助 CycleGAN 的思想处理非成对图像的转换。

图 2:本研究提出方法的整体流程图。输入图像来自 CelebA 数据集。

图 3:第一行图像是来自人像数据库的部分样本,第二行是漫画。

图 4:CariGeoGAN 的架构。它基本上遵循 CycleGAN 的网络结构,cycle Loss 为 L_cyc,对抗损失为 L_gan。但是我们的输入和输出是向量而非图像,我们添加了 characteristic loss L_cha 以增加人物的独特特征。

图 8:CariStyGan 架构。为简洁起见,此处我们仅展示了 X → Y ′ 变换的网络架构。Y ′ → X 变换的网络架构与该架构对称。输入图像来自 CelebA 数据集。

图 7:CariStyGAN 与 CycleGAN 和 MUNIT 的对比。所有网络使用同样的数据集进行训练来学习外观风格映射 X ⇒ Y ′。

图 10:在 CariGeoGAN 中使用 PCA 表征和使用 2D 坐标的对比。输入图像来自 CelebA 数据集。

对比和结果

图 12:风格嵌入系统的 T-SNE 可视化。其中灰点表示图像、红点表示手绘的人脸漫画、绿点表示生成的结果。一种不同点所对应的示例图像以对应的色彩框标注出来。

图 16:对比基于深度学习的人脸漫画方法,从左到右分别为两种一般的图像风格迁移方法、两种基于面部特性的风格迁移方法、两种单模型图像转换网络和多模态图像转换网络(MUNIT)。输入图像都选自 CelebA 数据集中,但除去了用于训练的 10K 张图像。

理论微软清华大学图像转换GAN
5
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

基于对抗生成网络的图像翻译技术

Pix2Pix是一种基于GAN的图像到图像翻译架构,生成部分G用U-Net代替Encoder-Decoder。普通的GAN接收的G输入是随机向量,输出是图像;但对于图像翻译任务来说,其G输入是一张图x,输出也是一张图y。Pix2Pix的训练需要确定的图像配对。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

CycleGAN技术

GAN的一个变种

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~