Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

家里没有王位继承?没关系,有人用AI打造了一个童话魔法世界

家里没矿、没王位,但谁还没有个王子、公主梦?

最近,机器之心收留了一批「在逃王子」。 


这些王子虽然来自不同的王国,但服化道都来自同一家公司——快手。

这是快手新推出的「童话魔法」特效。除了王子之外,你也可以过一把当公主的瘾。各路明星纷纷晒出了自己的公主特效形象:
 

杨幂

迪丽热巴

 娄艺潇

「童话魔法」是一项基于生成式算法的视频特效技术,可以让用户在手机端实时预览自己变身公主、王子的神奇效果。生成的图像不仅有着浓浓的童话风格,而且还保留了用户自身的容貌特点,带给用户新奇的拍摄体验。

目前,这套「童话魔法」有冰雪公主、梦幻城堡、童话公主和童话王子等数种画风的变身特效。

不仅如此,用户还能根据自身喜好进一步细化变身后的人物特效,添加风格多样的美妆、美体、滤镜以及封面文字等,还可以更换配乐,或者自己配音并转换成小黄人、机器人、萝莉、大叔等不同风格。

「童话魔法」背后的快手黑科技

真人秒变卡通图早已不是新鲜事。此前,韩国游戏公司 NCSOFT 开发的无监督图像转换算法 U-GAT-IT,通过引入可学习的 ILN 层和注意力机制,成功将人脸图像转换为日漫二次元图像,在业界引起不小的关注。

但是日漫和童话风格差别还是很大的。要想完成童话风格的图像转换,生成的图像既要保留用户原本的容貌特点,还要具备动画的 3D 人像风格,同时还要面临目标风格数据多样性不足的问题,因此 U-GAT-IT 无法满足需求。

而之前名噪一时的 Toonify 似乎也不够用。Toonify 虽然能够完成真人到动画电影角色的转换,但由于该方法直接从微调 StyleGAN 模型中提取低分辨率层,只保留原始 StyleGAN 中的高分辨率层,因此转换得到的图像与原始人脸相比存在形变,不能完全保留原始人脸本身的容貌特点。另外,该方法生成的部分图像面部存在色调变化等问题,且不能进行实时处理,无法满足工业界产品上线的要求。

针对以上这些难题,快手 Y-tech 团队的 AI 工程师采用了自研的 KStyleGAN 结构,在 3D 空间中表征人脸结构、进行风格映射,并采用神经网络渲染来精细控制结果图的质感,有效克服了常规基于 2D 表征的 StyleGAN 方法的缺陷,并在移动端上落地了实时特效。

在模型结构方面,针对移动端和服务端的不同计算硬件,通过半自动网络架构搜索(NAS)得到高效的网络结构,并在此基础上进行诸多创新。

一方面,快手设计了一种 pixel 级别的注意力机制——STA module(风格迁移注意力模块),来改进浅层和深层特征融合方式。常见的特征融合方式包括浅层与深层特征的直接相加、concat 之后进行多次卷积操作等。在风格迁移类任务中,由于原图和目标图的差别较大,这些常见的融合方式往往会导致原图信息的丢失、生成质量不佳或风格感降低等问题。而 STA module 通过少量计算,在 pixel 级别利用注意力引导浅层和深层特征的融合过程,在风格感不变的同时保留更多原图的细节,提升生成图像的质感。

另一方面,快手构建多分支、多深度的 FS block(特征增强模块)来替代传统的 Resnet block 结构。在使用更少计算量的情况下,这一改进对特征细节部分的增强和对整体形变情况的适应能力都更强,能够达到更好的生成效果。

在模型训练方面,快手针对实时风格化任务中的各种效果问题,有针对性地做了调整:

  1. 通过混合训练的方式,加强对风格特征的学习,增强最终模型生成的风格感;

  2. 针对模型金字塔中不同分辨率的特征,设计多任务多尺度的监督,加快模型收敛,提升生成质量与鲁棒性;

  3. 对抗训练阶段中引入预训练特征以提升判别器对细节纹理的判断能力,同时稳定判别器的训练过程,最终强化模型对细节纹理的生成能力。


特效虽好,如何适配手机端所有机型?

特效虽好用,但面对手机端种类繁多的机型、配置,如何实现设备算力与模型效果的最优适配,进而提供最佳用户体验呢?

快手首先进行了细致的算力分级

由于当前移动端硬件种类繁多,碎片化严重,算力分级面临横向、纵向挑战。横向挑战:设备大类上可分为 CPU、GPU、DSP、NPU 几类,各类之间的算力有所差异,大体上算力等级 NPU≥GPU≥DSP≥CPU,但实际情况中各级算力会有 overlap 甚至反转。纵向挑战:以 CPU 为例,厂商有 Apple、高通、华为、MTK 等,不同厂商、不同型号的 CPU 性能差异很大;GPU 也存在类似情况,如 Adreno 与 Mali 系列。

将碎片化的设备横向与纵向铺展开来会形成一个复杂的算力矩阵,快手自研的深度学习推理引擎 YCNN 配合极致优化的各后端代码在多种模型上进行了理论和实践的充分测试,最终结合快手用户群设计了一套详细的分级方案。

以这一套算力分级策略为指导,快手进行了模型结构、计算量的调整,设计不同计算量的模型。比如为 CPU 设计了效果较好的中等计算量模型,而像 NPU、GPU、DSP 这种适合大算力的设备则可以运行计算量更大、效果更好的模型。

另外,实际应用中多个模型会带来资源包过大、加载过慢的问题,为此快手引入了型服务器分级下发机制。根据终端硬件信息进行设备分级、下发和加载对应模型,充分利用设备算力同时给所有快手用户带来极致的效果体验。

YCNN 整体架构
 
针对不同的硬件进行分级模型设计,利用其自研算法压缩模型和 YCNN 引擎,快手让每个用户都能玩转「童话魔法」。

让每个人拥有舞台,每个人都拥有「变身」的可能性,这正是快手追求技术突破以及坚持用户导向的体现。
产业快手StyleGAN注意力机制
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式(或特征)的任务。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

推理引擎技术

推理机是实施问题求解的核心执行机构,常见于专家系统。它是对知识进行解释的程序,根据知识的语义,对按一定策略找到的知识进行解释执行,并把结果记录到动态库的适当空间中去。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~