Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蛋酱、小舟作者

英伟达开源「Imaginaire」:九大图像及视频合成方法,你学fei了吗?

图像 / 视频合成领域的集大成者,就在这一篇了。

图像和视频等视觉数据的生成是机器学习计算机视觉领域重要的研究问题之一。近几年,英伟达提出了 SPADE、MUNIT 等多个图像及视频合成模型。

近日,英伟达又开源了一个新的 PyTorch 库「Imaginaire」,共包含 9 种英伟达开发的图像及视频合成方法。


项目地址:https://github.com/NVlabs/imaginaire


这九种方法分别为:

  • 有监督的图像到图像转换

1、pix2pixHD

2、SPADE/GauGAN

  • 无监督的图像到图像转换

1、UNIT

2、MUNIT

3、FUNIT

4、COCO-FUNIT

  • 视频到视频转换

1、vid2vid

2、fs-vid2vid

3、wc-vid2vid


pix2pixHD


「pix2pixHD」是 pix2pix 的升级版本,具备高分辨率图像和语义处理功能,主要解决了深度图像合成编辑中的质量及分辨率问题。

项目主页:https://tcwang0509.github.io/pix2pixHD/




论文链接:https://arxiv.org/pdf/1711.11585.pdf

在这篇论文中,来自英伟达和 UC 伯克利的研究者提出了一种使用条件 GAN 从语义标签图上合成高分辨率照片级逼真图像的方法。此前,条件 GAN 已经有了很广泛的应用,但生成结果均为低分辨率并与现实差异较大。因此,研究者使用了一种新的对抗损失、多尺度生成器和判别器架构来生成 2048x1024 的结果。此外,研究者为该框架扩展了两个附加功能。首先,合并了对象实例分割信息,实现了删除 / 添加对象和更改对象类别等操作;其次,提出了一种在相同输入下生成多种结果的方法,让使用者可以编辑对象外观。该论文被 CVPR 2018 接收。

SPADE/GauGAN

在 GTC 2019 上,英伟达展示了一款交互应用「GauGAN」。它可以轻松地将粗糙的涂鸦变成逼真的杰作,令人叹为观止,效果堪比真人摄影师作品。GauGAN 应用主要使用的技术,就是英伟达的 SPADE。


项目主页:https://nvlabs.github.io/SPADE/


论文地址:https://arxiv.org/pdf/1903.07291.pdf

这篇论文中,来自 UC 伯克利、英伟达、MIT CSALL 的研究者提出了一种空间自适应归一化方法,在给定输入语义布局的情况下,实现了一种简单有效的逼真图像合成层。以前的方法直接将语义布局作为输入提供给深度网络,然后通过卷积、归一化和非线性层处理深度网络。实验表明,这种方法并不是最优的,因为归一化层倾向于「洗去」语义信息。为了解决这个问题,研究者提出使用输入布局,通过空间自适应的、学习的转换来调节归一化层中的激活函数。在几个具有挑战性的数据集上的实验表明,与现有方法相比,该方法在视觉保真度和与输入布局的对齐方面具有优势。最后,该模型允许用户控制合成图像的语义和风格。该论文被 CVPR 2019 接收为 Oral 论文。

UNIT

项目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/unit


论文地址:https://arxiv.org/abs/1703.00848

UNIT(Unsupervised image-to-image translation)旨在通过使用来自单个域中边缘分布的图像来学习不同域中图像的联合分布。由于要达到给定的边缘分布需要一个联合分布的无限集,因此如果没有其他假设,就无法从边缘分布推断联合分布。为了解决这个问题,研究者提出了一个共享潜在空间的假设,并提出了一个基于耦合 GAN 的无监督图像到图像转换框架。

MUNIT

无监督图像到图像转换计算机视觉领域一个重要而富有挑战的问题:给定源域(source domain)中的一张图像,需要在没有任何配对图像数据的情况下,学习出目标域(target domain)中其对应图像的条件分布。虽然条件分布是多模态的,但此前方法都引入了过于简化的假设,而将其作为一个确定性的一对一映射,因此无法在特定的源域图像中生成富有多样性的输出结果。

项目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/munit


论文地址:https://arxiv.org/abs/1804.04732

这篇论文中,康奈尔大学和英伟达的研究者提出了多模态无监督图像到图像转换 MUNT 框架。研究者假设,图像表征可以分解为一个具有域不变性(domain-invariant)的内容码(content code)和一个能刻画域特有性质的风格码(style code)。为了将图像转化到另一个域中,研究者将:1. 原图像的内容码,2. 从目标域中随机抽取的某个风格码 进行重组,并分析了 MUNT 框架,并建立了相应的理论结果。大量实验表明,将 MUNT 与其他 SOTA 方法相比具备优越性。最后,通过引入一个风格图像(style image)样例,使用者可以利用 MUNT 来控制转化的输出风格。

FUNIT

项目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/funit


论文地址:https://arxiv.org/abs/1905.01723

虽然此前无监督图像到图像转换算法在很多方面都非常成功,尤其是跨图像类别的复杂外观转换,但根据先验知识从新一类少量样本中进行泛化的能力依然无法做到。具体来说,如果模型需要在某些类别上执行图像转换,那么这些算法需要所有类别的大量图像作为训练集。也就是说,它们不支持 few-shot 泛化。总体而言有以下两方面的限制:

其一,这些方法通常需要在训练时看到目标类的大量图像;
其二,用于一个转换任务的训练模型在测试时无法应用于另一个转换任务。

这篇论文中,英伟达的研究者提出一种 Few-shot 无监督图像到图像转换(FUNIT)框架。该框架旨在学习一种新颖的图像到图像转换模型,从而利用目标类的少量图像将源类图像映射到目标类图像。也就是说,该模型在训练阶段从未看过目标类图像,却被要求在测试时生成一些目标类图像。

COCO-FUNIT

项目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/coco_funit


论文地址:https://nvlabs.github.io/COCO-FUNIT/paper.pdf

COCO-FUNIT 之前的图像到图像变换模型在模拟不可见域的外观时很难保留输入图像的结构,这被称为内容丢失问题。当输入图像和示例图像中对象的姿势有较大差异时,这个问题尤其严重。为了解决这个问题,研究者提出了一种新的 few-shot 的图像变换模型,即 COCO-FUNIT。

vid2vid

2018 年,英伟达联合 MIT CSAIL 开发出了直接视频到视频的转换系统。该系统不仅能用语义分割掩码视频合成真实街景视频,分辨率达到 2K,能用草图视频合成真实人物视频,还能用姿态图合成真人舞蹈视频。此外,在语义分割掩码输入下,只需换个掩码颜色,该系统就能直接将街景中的树变成建筑。

项目主页:https://tcwang0509.github.io/vid2vid/


论文地址:https://arxiv.org/abs/1808.06601

这篇论文中,来自英伟达和 MIT 的研究者提出了一种新型的生成对抗网络框架下的视频到视频合成方法。通过精心设计生成器和判别器架构,结合空间 - 时间对抗目标函数,研究者在多种输入视频格式下生成了高分辨率、时间连贯的照片级视频,其中多种形式的输入包括分割掩码、草图和姿态图。在多个基准上的实验结果表明,相对于强基线,本文方法更具优越性,该模型可以合成长达 30 秒的 2K 分辨率街景视频,与当前最佳的视频合成方法相比具备显著的优势。研究者将该方法应用到未来视频预测中,表现均超越其他方法。该论文被 NeurIPS 2018 接收。

Few-shot vid2vid

「vid2vid」旨在将人体姿态或分割掩模等输入的语义视频,转换为逼真的输出视频,但它依然存在以下两种局限:其一,现有方法极其需要数据。训练过程中需要大量目标人物或场景的图像;其二,学习到的模型泛化能力不足。姿态到人体(pose-to-human)的 vid2vid 模型只能合成训练集中单个人的姿态,不能泛化到训练集中没有的其他人。

2019 年,英伟达又推出了新的「few-shot vid2vid」框架,仅借助少量目标示例图像就能合成之前未见过的目标或场景的视频,在跳舞、头部特写、街景等场景中都能得到逼真的结果。


项目主页:https://nvlabs.github.io/few-shot-vid2vid/


论文地址:https://arxiv.org/pdf/1910.12713.pdf

这篇论文中,英伟达的研究者提出了一种 few-shot vid2vid 框架,该框架在测试时通过利用目标主体的少量示例图像,学习对以前未见主体或场景的视频进行合成。

借助于一个利用注意力机制的新型网络权重生成模块,few-shot vid2vid 模型实现了在少样本情况下的泛化能力。研究者进行了大量的实验验证,并利用人体跳舞、头部特写和街景等大型视频数据集与强基准做了对比。

实验结果表明,英伟达提出的 few-shot vid2vid 框架能够有效地解决现有方法存在的局限性。该论文被 NeurIPS 2019 接收。

World Consistent vid2vid

「World Consistent vid2vid」是英伟达在 2020 年 7 月推出的一种视频到视频合成方法。vid2vid 视频编码方法能够实现短时间的时间一致性,但在长时间的情况下不能时间一致性。这是因为对 3D 世界渲染方式缺乏了解,并且只能根据过去的几帧来生成每一帧。

项目主页:https://nvlabs.github.io/wc-vid2vid/


论文地址:https://arxiv.org/pdf/2007.08509.pdf

在这篇论文中,英伟达的研究者引入了一个新的视频渲染框架,该框架能够在渲染过程中有效利用过去生成的所有帧,来改善后续视频的合成效果。研究者利用「制导图像」,并进一步提出了一种新的神经网络结构以利用存储在制导图像中的信息。一系列实验结果表明,该方法具备良好表现,输出视频在 3D 世界渲染上是一致的。

理论英伟达GANvid2vid
相关数据
激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式(或特征)的任务。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

视频预测技术

视频预测任务是指在基于给定的视频帧序列,生成一个可信的未来帧序列。

视频到视频合成技术

视频到视频合成的目标是从输入源视频(例如,一系列语义分割遮罩)生成能够精确描述源视频内容的输出视频。

推荐文章
暂无评论
暂无评论~