李诗萌 路雪编译

给动漫人物轻松换装、编舞,这家游戏公司用GAN做到了!

日本游戏公司 DeNA 利用渐进式结构条件生成对抗网络(PSGAN)这一新框架生成高分辨率全身动漫人物图像,该方法能够生成高分辨率图像,且具备结构一致性。此外,该方法还可以轻松实现动漫人物换装和添加动作。

论文:Full-body High-resolution Anime Generation with Progressive Structure-conditional Generative Adversarial Networks

论文链接:https://drive.google.com/file/d/1uLvdkEWUzb4Qgtg_abelaLoSkj3zcsD2/edit

摘要:我们提出的渐进式结构条件生成对抗网络(Progressive Structure-conditional Generative Adversarial Network,PSGAN)是一种根据结构信息生成高分辨率全身人物图像的新框架。最近的生成对抗网络可以通过渐进式训练生成高分辨率的图像。但是现有的方法无法同时满足高图像质量和结构一致性。我们提出的方法通过在训练过程中渐进地增强生成图像分辨率和结构条件,突破了之前方法的局限性。我们比较了现有方法和分辨率为 1024*1024 的不同动漫形象基于目标姿势序列生成的视频结果,论证了本文提出方法的有效性。我们还用 Unity 3D Avatar 模型创建了新的数据集,该数据集包含 1024*1024 的高分辨率全身图像以及精确的 2D 姿势关键词。

生成 1024*1024 的全身动漫人物

我们展示了使用测试姿势序列通过 PSGAN 生成的分辨率为 1024*1024 的不同动漫形象和动画视频示例。1. 我们先根据随机隐变量用 PSGAN 生成了许多动漫人物,通过插入这些人物来创建新的动漫形象。2. 接下来我们给 PSGAN 网络提供连续的姿势序列信息,通过这些信息为每一个动漫形象生成一段动画视频。在这段视频中我们多次重复了 1 和 2 步骤。

生成新的动漫人物全身图像

我们用 PSGAN 插入对应身穿不同服饰的动漫形象(人物 1 和人物 2)的隐变量,来生成新的动漫人物的全身图像。注意,这里只需要一个姿势。

给动漫人物的全身像添加动作

下图展示了使用特定动漫人物和目标姿势生成一段动画的示例:

通过调整隐变量和给 PSGAN 提供连续的姿势序列,我们可以为每一个动漫人物生成一段动画。更具体地说,我们将特定的动漫人物的表征映射到隐空间的隐变量中,作为 PSGAN 的输入向量。

通过将指定的动漫人物映射到隐空间,并生成隐变量作为 PSGAN 的输入,就可以生成特定动漫形象的任意动画视频。

渐进式结构条件 GAN(PSGAN)

我们的关键思想是渐进地学习带有结构条件的图像表征。上图展示了 PSGAN 中生成器 G 和鉴别器 D 的结构。PSGAN 在每个尺度下根据结构条件增强了生成图像的分辨率,并生成了高分辨率的图像。我们采用了和 Progressive GAN [Karras+18] 中图像生成器和辨别器相同的结构,但我们通过添加每个尺度对应分辨率的姿势映射,在生成器和鉴别器上添加了结构性条件,这显著地稳定了训练。带有结构条件的 GAN 之前也有人提出过[Ma+17,Ma+18,Balakrishnan+18,Siarohin+18,Si+18,Hu+18,Qiao+18]。他们用的是单尺度条件,而我们用的是多尺度条件。具体而言,我们在每一个尺度上下采样了全分辨率的结构条件映射,组成多尺度条件映射。就每个尺度而言,生成器根据带有结构条件的隐变量生成一张图像,而鉴别器根据结构条件区分生成图像和真实图像。N*N 的白色框表示在 N*N 的空间分辨率上进行可学习的卷积层操作。N*N 的灰色框表示结构条件的不可学习下采样层,这样的操作将结构条件映射的空间分辨率降到了 N*N。我们用 M 个通道表示 M 维结构条件(例如 M 个关键点)。

AVATAR 动漫形象数据集

我们用包含 600 个姿势和 69 类服饰的 Unity 3D Avatar 模型创建了一个全新的数据集,该数据集包含分辨率为 1024*1024 的全身图像以及精准的 2D 姿势关键词。下图是创建数据的示例。动漫形象(每对图的左侧)和姿势图像(每对图的右侧)如下图所示。

对比

结构一致性对比

上图所示是用 Progressive GAN [Karras+18] 和 PSGAN 在 DeepFashion [Liu+16] (256*256) 数据集上生成的图像。通过观察可以看出 Progressive GAN 不能生成与全局结构一致的自然图像(例如左边四张图)。而 PSGAN 可以通过在每个尺度上添加结构条件生成与全局结构一致的合理图像。

基于姿势条件生成图像的质量对比

上图所示是 PSGAN 和姿势引导的人像生成模型(Pose Guided Person Image Generation,PG2)[Ma+17] 在 256*256 版的 Avatar 数据集和 DeepFashion 数据集上生成的图像。从上图可以看出,由于在每个尺度上添加了结构条件,PSGAN 生成的图像比 PG2 更清晰,细节也更多。

PG2 需要源图像和对应的目标姿势,来将源图像转换成具有目标姿势的图像。与此同时,PSGAN 利用隐变量和目标姿势生成带有目标姿势的图像,且无需成对的训练图像。

原文链接:https://dena.com/intl/anime-generation/

理论生成对抗网络
61
相关数据
映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

推荐文章