小视科技来源

照片秒变卡通风,小视科技AI团队开源人脸卡通化算法模型

卡通画一直以幽默、风趣的艺术效果和鲜明直接的表达方式为大众所喜爱。近年来,随着多部动漫电影陆续成为现象级爆款,越来越多的人开始在社交网络中使用卡通画作为一种表意的文化载体。

在这个过程中,以表情包和定制头像的兴起为例,人们开始尝试以融入个人特征和个性想法的卡通画来实现信息的精准传播。且传播主体不再局限于传统动画制作公司,而是以大众为主体的娱乐化传播。

因此,人们对于定制卡通画的需求与日俱增。然而高质量的卡通画需要有经验的画师精心绘制,从线稿设计到色彩搭配,整个流程耗时费力,对于大众而言购买成本较高。

小视科技AI团队近期上线的“AI卡通秀”小程序能够自动实现真实世界照片的卡通风格转变,效果精美自然。为增加行业内交流,促进技术层面的共同提升,该团队现已开源卡通化模型和数据。

地址:https://github.com/minivision-ai/photo2cartoon

图1 “AI卡通秀”小程序卡通风格化效果图像卡通风格渲染是一项具有挑战性的任务,其目的是将真实照片转换为卡通风格的非真实感图像,同时保持原照片的语义内容和纹理细节。现有的图像卡通风格渲染的方法主要分成两大类:

一是利用传统图像处理技术的方法。该方法只能处理纹理内容简单的图片,因为这些方法本质上是图像滤波和边缘增强的结合,效果受图像内容的影响很大,泛化能力较差。

二是基于深度神经网络的方法。此方法通常难以在转换图像全局风格和保持图像局部的细节语义内容之间取得良好的平衡,易导致风格化程度不足或者丢失图像中的语义细节,产生人工痕迹(Artifacts)。

目前,图像卡通化任务的主要难点:

  1. 卡通图像往往有清晰的边缘,平滑的色块和经过简化的纹理,与其他艺术风格有很大区别。使用传统图像处理技术生成的卡通图无法自适应地处理复杂的光照和纹理,效果较差;基于风格迁移的方法无法对细节进行准确地勾勒。
  2. 数据获取难度大。绘制风格精美且统一的卡通画耗时较多、成本较高,且转换后的卡通画和原照片的脸型及五官形状有差异,因此不构成像素级的成对数据,难以采用基于成对数据的图像翻译(Paired Image Translation)方法。
  3. 照片卡通化后容易丢失身份信息。基于非成对数据的图像翻译(UnpairedImage Translation)方法中的循环一致性损失(Cycle Loss)无法对输入输出的id进行有效约束。

具体方法

基于上述分析,研究人员提出了一种基于生成对抗网络的卡通化模型,只需少量非成对的训练数据,就能获得漂亮的结果。卡通风格渲染网络是本方法提出的解决方案核心,它主要由特征提取、特征融合和特征重建三部分组成。整体框架由图2所示。
图2 卡通化模型整体框架
特征提取部分包含堆叠Hourglass模块、下采样模块和残差模块。Hourglass模块常用于姿态估计,它能够在特征提取的同时保持语义信息位置不变。本方法采用堆叠的Hourglass模块,渐进地将输入图像抽象成易于编码的形式。4个残差模块编码特征并提取统计信息用于后续的特征融合。

特征融合部分使用研究人员提出的Soft-AdaLIN(Soft Adaptive Layer-Instance Normalization),先将输入图像的编码特征统计信息和卡通特征统计信息相融合,再以AdaLIN的方式反规范化解码特征,使卡通画结果更好地保持输入图像的语义内容。

不同于原始的AdaLIN,这里的“Soft”体现在不直接使用卡通特征统计量来反规范化解码特征,而是通过可学习的权重来加权平均卡通特征和编码特征的统计量,并以此对规范化后的解码特征进行反规范化

编码特征统计量提取自特征提取部分中各Resblock的输出特征,卡通特征统计量通过全连接层提取自CAM(Class Activation Mapping)模块输出的特征图。加权后的统计量为:

则Soft-AdaLIN操作可以表示为:
其中为特征重建部分中各Resblock提取的解码特征,为channel-wise均值、标准差,为layer-wise均值、标准差,用于调整InstanceNorm和Layer Norm的比重,为防止除零的常数。

特征重建部分负责从编码特征生成对应的卡通图像。特征重建部分采用与特征提取部分对称的结构,通过解码模块、上采样模块和Hourglass模块生成卡通画结果。

损失函数

除了常规的Cycle Loss和GAN Loss,研究人员还引入了ID Loss,使用预训练的人脸识别模型来提取输入真人照和生成卡通画的id特征,并用余弦距离来约束,使卡通画的id信息与输入照片尽可能相似。
其中,为输入的真实图像,为生成的卡通图像,为预训练的人脸特征提取模型用于提取512维的id特征。

实验

实验所用的卡通图像数据共204张,人脸照片数据共820张,均收集自互联网。由于实验数据有限,为了降低训练难度,我们将数据处理成固定的模式。
首先检测图像中的人脸及关键点,根据关键点旋转校正图像,并按统一标准裁剪,再将裁剪后的头像输入人像分割模型去除背景,流程如图3所示。
图3 数据预处理
实验效果如下:
图4 卡通化效果

更多训练细节参见github项目:
https://github.com/minivision-ai/photo2cartoon
产业深度神经网络小视科技图像处理
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

推荐文章
暂无评论
暂无评论~