Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Egor Zakharov等作者思源 张倩 杜伟编译

蒙娜丽莎.gif:三星新研究用一张图像合成动图,无需3D建模

蒙娜丽莎开口说话你见过吗?这位神秘的画中人也能做出各种 gif 表情?来自三星莫斯科 AI 中心和 Skolkovo 科学技术研究所的研究人员创建了一个模型,利用这个模型可以从一张图像中生成人物头像的动图,而且是开口说话的动图。而且,这一模型没有采用 3D 建模等传统方法。

开口说话的蒙娜丽莎好像看着没那么高冷。

除了蒙娜丽莎,研究人员还生成了风情万种的玛丽莲·梦露。

他们生成的名人头部动画包括玛丽莲·梦露、爱因斯坦、蒙娜丽莎以及 Wu Tang Clan 的 RZA 等。

近年来出现了很多利用 AI 模拟人脸的研究。2018 年,华盛顿大学的研究人员分享了他们创建的 ObamaNet,它是一种基于 Pix2Pix 的唇语口型模型,以美国前总统奥巴马的视频进行训练。去年秋天,加州大学伯克利分校的研究人员开发出一个模型,使用 YouTube 视频来训练 AI 数据集,生成的人物可以做跳舞或后空翻等杂技动作。

为了创建个性化模型,上面这些研究需要在大量个人数据上进行训练。但是,在许多实际场景中,我们需要从个人的少量甚至是一张图像中学习。因此在这项研究中,三星和 Skolkovo 研究所的研究人员只用少量甚至一张图像或画作就合成了人物开口说话状态的头部动画。

研究人员利用了 Few-shot learning 等技术,主要合成头部图像和面部 landmark,可应用于电子游戏、视频会议或者三星 Galaxy S10 上现在可用的数字替身(digital avatar)。这种虚拟现实项目的数字替身技术可用于创建 deepfake 图像和视频。

Few-shot 学习意味着该模型在仅使用几幅甚至一幅图像的情况下模拟人脸。研究人员使用 VoxCeleb2 视频数据集进行元训练(meta trainning)。在元学习过程中,系统创建了三种神经网络:将帧映射到向量的嵌入器网络、在合成视频中映射面部特征点的生成器网络以及评估生成图像真实性和姿态的判别器网络。

联合三种网络,该系统能在大型视频数据集上执行长时间的元学习过程。待元学习收敛后,就能构建 few-shot 或 one-shot 的神经头像特写模型。该模型将未见过的目标任务视为对抗学习问题,这样就能利用已学习的高质量生成器与判别器。

论文作者表示:「至关重要的一点是,尽管需要调整数千万参数,该系统能够因人而异地初始化生成器和判别器参数,因此训练可以在仅借助几幅图像的情况下快速完成。这种方法能够快速学习新面孔甚至是人物肖像画和个性化的头像特写模型。」

该论文已被 2019 CVPR 会议接收,本届会议将于六月份在加利福尼亚州的长滩举行。

论文:Few-Shot Adversarial Learning of Realistic Neural Talking Head Models

论文地址:https://arxiv.org/abs/1905.08233

新颖的对抗学习架构

在这项研究中,研究者提出了一种新系统,可以只使用少量图像(即 Few shot learning)和有限的训练时间,构建「头像特写」模型。实际上,研究者的模型可以基于单张图像(one-shot learning)生成合理的结果,而且在添加少量新样本后,模型能生成保真度更高的个性化图像。

与很多同类工作相同,研究者的模型使用卷积神经网络构建头像特性,它通过一个序列的卷积运算直接合成视频帧,而不是通过变形(warping)。研究者模型创建的头像特写可以实现大量不同的姿态,其性能显著高于基于变形(warping-based)的系统。

通过在头像特写语料库上的大量预训练(meta-learning),模型能获得 few-shot 学习的能力。当然这需要语料库足够大,且头部特写视频对应不同的说话者与面孔。在元学习过程中,研究者的系统模拟了 few-shot 学习任务,并学习将面部 landmark 位置转换到逼真的个性化照片。在 few-shot 学习中,他们只需要提供转换目标的少量训练图像就可以。

随后,转换目标的少量图像可视为一个新的对抗学习问题,其高复杂度的生成器与判别器都通过元学习完成了预训练。新的对抗问题最终会完成收敛,即在少量训练迭代后能生成真实和个性化的图像。

元学习架构

下图 2 展示了研究者方法中的元学习阶段,简单而言它需要训练三个子网络。注意,若我们有 M 个视频序列,那么 x_i(t) 表示第 i 个视频的第 t 帧。

  • 第一个子网络 embedder E:它会输入视频帧 x_i(s) 以及对应的 landmark 图像 y_i(s),该网络会将输入映射到 N 维向量 e hat_i(s) 中。

  • 第二个子网络 generator G:它会输入新的 landmark 图像 y_i(t),且 embedder 看不到其对应的视频帧;该网络还会输入 embedder 输出的 e hat_i,并希望能输出合成的新视频帧 x hat_i(t)。

  • 第三个子网络 discriminator D:它会输入视频帧 x_i(t)、对应的 landmark 图像 y_i(t),以及训练序列的索引 i。该网络希望判断视频帧 x_i(t) 到底是不是第 i 个视频中的内容,以及它到底匹不匹配对应的 landmark 图像 y_i(t)。

图 2:元学习架构的整体结构,主要包含嵌入器(embedder)、生成器和判别器三大模块。

嵌入器网络希望将头像特写图像与对应的人脸 landmark 映射到嵌入向量,该向量包含独立于人脸姿态的信息。生成器网络通过一系列卷积层将输入的人脸 landmark 映射到输出帧中,其生成结果会通过嵌入向量以及自适应实例归一化进行调整。在元学习中,研究者将相同视频一组视频帧传递到嵌入器,并对嵌入向量求均值以便预测生成器的自适应参数。

随后,研究者将不同帧的 landmark 输入到生成器中,并对比标注图像和生成图像之间的差别。模型的整体优化目标包括感知和对抗两种损失函数,后者通过条件映射判别器实现。

此外,元学习的三大子网络在原论文中都有具体的表达式,读者可具体查阅原论文 3.2 章。

Few-shot 学习过程

一旦元学习完成收敛,那么系统就能学习到如何合成新目标的头像特写序列,即使元学习中不曾见过这个人。当然,除了要提供新目标的一些图像样本,我们还需要提供新目标的 landmark,合成过程是以这些目标 landmark 为条件的。

很自然地,我们可以使用元学习收敛后的嵌入器(embedder),用来估计新头像特写序列的嵌入向量:

一种比较直观的想法是使用上面的嵌入向量,以及预训练的生成器生成新的视频帧与对应 landmark 图像。理论上这样也能生成真实的图像,但真实性并不是太强。为此,研究者还需要一个精调过程以生成更完美的图像,即 few-shot 学习过程。

精调过程可视为前面元学习过程的简化版,它只在单个视频序列和较少的帧上完成训练。精调过程主要包含判别器与生成器两个模块,这里嵌入器是不需要调整的。

其中生成器还是根据 landmark 合成视频帧,只不过对应具体人物的生成器参数 ψ'会和原来一般人物参数ψ共同优化,以学习生成目标人物的某些特征。判别器和元学习阶段也差不多,只不过会增加一个新参数以学习更好地预测真实度分数。

实验

研究者在定性和定量评估实验中用到了两个数据集:VoxCeleb1 和 VoxCeleb2。后者的视频数量大约是前者的 10 倍。VoxCeleb1 用于与基线和控制变量研究作对比,VoxCeleb2 用于展示本文中所提方法的全部潜力。实验结果如下表所示:

如表 1 所示,基线模型在两个相似度度量标准上始终优于三星的方法。三星研究人员认为,这是方法本身所固有的:X2Face 在优化期间使用 L_2 损失函数,因此 SSIM 得分较高。另一方面,Pix2pixHD 只最大化了感知度量,没有 identity preservation 损失,导致 FID 最小化,但从 CSIM 一栏中可以看出,Pix2pixHD 的 identity 不匹配更大。

此外,这些度量标准和人类的感知并没有特别紧密的关联,因为这些方法都会产生恐怖谷伪影(uncanny valley artifact),这从图 3 和用户研究结果中可以看出。另一方面,余弦相似度与视觉质量有更好的相关性,但仍然倾向于模糊、不太真实的图像,这也可以通过表 1 与图 3 中的结果对比来看出。

图 3:在 VoxCeleb1 数据集上的结果。对于每一种对比方法,研究者在一个元训练或预训练期间未见过的人物视频上执行 one-shot 和 few-shot 学习。他们将训练的帧数设为 T(最左边的数字)。Source 列显示了训练帧之一。

接下来,研究者扩展了可用的数据,开始在视频数目更多的 VoxCeleb2 上训练模型。他们训练了两种模型:FF(前馈)和 FT。前者训练 150 个 epoch,没有嵌入匹配损失 LMCH,因此用的时候不进行微调。后者训练 75 个 epoch,但有 LMCH,支持微调。

他们对这两种模型都进行了评估,因为它们可以在 few-shot 学习速度和结果质量之间进行权衡。与在 VoxCeleb1 上训练的小型模型相比,二者都得到了很高的分数。值得注意的是,FT 模型在 T=32 的设定下达到了用户研究准确率的下界,即 0.33,这是一个完美的分数。两种模型的结果如图 4 所示:

图 4:三星最好的模型在 VoxCeleb2 数据集上的结果。

最后,研究者展示了模型在照片或画像上的结果。为此,研究者评估了在 one-shot 设定下训练的模型,任务姿态来自 VoxCeleb2 数据集的测试视频。他们使用 CSIM 度量给这些视频排序,并在原始图像和生成图像之间进行计算。这使得研究者可以发现拥有相似标志几何特征的人脸,并将它们由静态变为动态。结果见图 5 和图 1.

图 5:使静止的照片栩栩如生。

理论计算机视觉三星few shot learning人脸生成
5
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

Samsung Group机构

三星集团是韩国最大的跨国企业集团,同时也是上市企业全球500强,三星集团包括众多的国际下属企业,旗下子公司有:三星电子、三星物产、三星航空、三星人寿保险、雷诺三星汽车等,业务涉及电子、金融、机械、化学等众多领域。 三星集团成立于1938年,由李秉喆创办。三星集团是家族企业,李氏家族世袭,旗下各个三星产业均为家族产业,并由家族中的其他成员管理,集团领导人已传至 李氏第三代,李健熙为现任集团会长,其子李在镕任三星电子副会长。

推荐文章
暂无评论
暂无评论~