卡通画一直以幽默、风趣的艺术效果和鲜明直接的表达方式为大众所喜爱。近年来,随着多部动漫电影陆续成为现象级爆款,越来越多的人开始在社交网络中使用卡通画作为一种表意的文化载体。
在这个过程中,以表情包和定制头像的兴起为例,人们开始尝试以融入个人特征和个性想法的卡通画来实现信息的精准传播。且传播主体不再局限于传统动画制作公司,而是以大众为主体的娱乐化传播。
因此,人们对于定制卡通画的需求与日俱增。然而高质量的卡通画需要有经验的画师精心绘制,从线稿设计到色彩搭配,整个流程耗时费力,对于大众而言购买成本较高。
小视科技AI团队近期上线的“AI卡通秀”小程序能够自动实现真实世界照片的卡通风格转变,效果精美自然。为增加行业内交流,促进技术层面的共同提升,该团队现已开源卡通化模型和数据。
图像卡通风格渲染是一项具有挑战性的任务,其目的是将真实照片转换为卡通风格的非真实感图像,同时保持原照片的语义内容和纹理细节。现有的图像卡通风格渲染的方法主要分成两大类:
一是利用传统图像处理技术的方法。该方法只能处理纹理内容简单的图片,因为这些方法本质上是图像滤波和边缘增强的结合,效果受图像内容的影响很大,泛化能力较差。
二是基于深度神经网络的方法。此方法通常难以在转换图像全局风格和保持图像局部的细节语义内容之间取得良好的平衡,易导致风格化程度不足或者丢失图像中的语义细节,产生人工痕迹(Artifacts)。
目前,图像卡通化任务的主要难点:
卡通图像往往有清晰的边缘,平滑的色块和经过简化的纹理,与其他艺术风格有很大区别。使用传统图像处理技术生成的卡通图无法自适应地处理复杂的光照和纹理,效果较差;基于风格迁移的方法无法对细节进行准确地勾勒。 数据获取难度大。绘制风格精美且统一的卡通画耗时较多、成本较高,且转换后的卡通画和原照片的脸型及五官形状有差异,因此不构成像素级的成对数据,难以采用基于成对数据的图像翻译(Paired Image Translation)方法。 照片卡通化后容易丢失身份信息。基于非成对数据的图像翻译(UnpairedImage Translation)方法中的循环一致性损失(Cycle Loss)无法对输入输出的id进行有效约束。
具体方法
特征融合部分使用研究人员提出的Soft-AdaLIN(Soft Adaptive Layer-Instance Normalization),先将输入图像的编码特征统计信息和卡通特征统计信息相融合,再以AdaLIN的方式反规范化解码特征,使卡通画结果更好地保持输入图像的语义内容。
编码特征统计量提取自特征提取部分中各Resblock的输出特征,卡通特征统计量通过全连接层提取自CAM(Class Activation Mapping)模块输出的特征图。加权后的统计量为:
特征重建部分负责从编码特征生成对应的卡通图像。特征重建部分采用与特征提取部分对称的结构,通过解码模块、上采样模块和Hourglass模块生成卡通画结果。
损失函数
实验