Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?

今年多模态图像合成与编辑方向大火,前有 DALL-E、GauGAN2,后有统一的多模态预训练模型「女娲」。来自新加坡南洋理工大学的研究者对这一领域内的进展和趋势做了系统的调查梳理。

现实世界中的信息存在于各种模态之中,多模态信息之间的有效交互和融合对于计算机视觉深度学习研究中多模态数据的创建和感知起着关键作用。凭借在多模态信息交互建模方面的强大能力,多模态图像合成和编辑已成为近年来的热门研究课题。

与提供显式线索的传统视觉指导不同,多模态指导为图像合成和编辑提供了直观、灵活的手段。另一方面,该领域在特征与固有模态差距的对齐、高分辨率图像合成、公平评估指标等方面也面临着挑战。

基于此,来自新加坡南洋理工大学的研究者做了一项调查,全面地将近来多模态图像合成和编辑的进展背景化,根据数据模态和模型架构制定分类法,并撰写了一篇综述论文。


  • 论文地址:https://arxiv.org/pdf/2112.13592.pdf

  • 项目地址:https://github.com/fnzhan/MISE




该论文首先介绍图像合成和编辑中不同类型的指导模态,并使用详细的框架广泛地描述多模态图像合成和编辑方法,包括生成对抗网络(GAN)、GAN 反转、Transformer、NeRF、扩散模型等。然后该研究对多模态图像合成和编辑中广泛采用的基准数据集和相应评估指标做了全面描述,并分析比较了多种合成方法及其优缺点。最后,该研究对当前研究存在的挑战和未来可能的研究方向给出了见解。这项调查研究将为多模态图像合成和编辑的未来发展奠定良好的基础。



论文内容概览

图像合成和编辑旨在创建逼真图像或编辑具有自然纹理的真实图像,近年来大多基于生成对抗网络(GAN)[1]。为了实现更可控的生成,一个主流研究方向旨在根据一定的指导条件生成和编辑图像。通常,分割图和图像边缘等视觉线索已被广泛采用,以实现卓越的图像合成和编辑性能。除了这些视觉线索之外,文本、音频和场景图等跨模态指导提供了一种更直观、更灵活的视觉概念表达方式。然而,从不同模态的数据中有效检索和融合异构信息仍是图像生成和编辑的巨大挑战。

作为多模态图像合成领域的一项先驱工作,E. Mansimov 等人 (2015)[5] 的工作表明循环变分自动编码器可以生成以文本为条件的新型视觉场景。随着生成对抗网络 I. Goodfellow 等人 (2014)[1]、P. Isola 等人(2017)[2]、 T. Park 等人(2019)[3]、 M. Mirza 等人(2014)[6]、 M. Arjovsky 等人(2017)[7]、 C.-H. Lin 等人(2018)[8] 等多项研究的发展,多模态图像合成的工作得到了极大的推进。


 S. Reed 等人 2016 年的论文《Generative adversarial text to image synthesis》[11]扩展了条件 GAN [6] ,以基于文本描述生成自然图像。  L. Chen 等人 2017 年的论文《Deep cross-modal audio-visual generation》[12] 用条件 GAN 实现音乐表演的跨模态视听生成。然而,这两项先驱研究仅能对图像分辨率相对较低(例如 64 × 64)的有限数据集(例如 CUB-200 Birds [13] 和 Sub-URMP [12])进行合成。在过去几年中,改进的多模态编码 [14][15]、新型架构[16][17] 和循环结构[18] 使得该领域取得了显著的进步。另一方面,早期的研究主要集中在多模态图像合成上,很少关注多模态图像编辑任务。



随着大规模 GAN 的发展,领域内又涌现出一系列新型生成网络,如 BigGAN [19] 和 StyleGAN [20]-[22],以从随机噪声输入中合成高质量且具有多样性的图像。

最近有研究表明,GAN 可以在中间特征 [23] 和潜在空间 [24] 中有效地编码丰富的语义信息。GAN 反转 [25] 的方法将给定图像反转回预训练 GAN 模型的潜在空间,产生可由生成器重建给定图像的反转代码,这种方法取代了通过改变潜在代码来合成图像。由于 GAN 反转能够控制在潜在空间中发现的属性方向,因此预训练 GAN 可应用于真实图像编辑,而无需临时监督或昂贵的优化。

许多研究 [26][27] 都试图沿着一个特定方向改变真实图像的反转码来编辑图像的相应属性。在多模态指导方面,StyleClip [28] 利用 CLIP [29] 模型的强大功能为 StyleGAN 图像处理开发了基于文本的接口,而无需繁琐的手动操作。Talk-to-Edit [30] 则提出一种交互式人脸编辑框架,通过操作者与机器之间的对话就能进行细粒度的操作和编辑。



随着允许跨模态输入的 Transformer 模型 [31] 的流行,语言模型 [32]、图像生成预训练 [33] 和音频生成 [34] 等多个领域都取得了显著的进步。Transformer 为多模态图像合成提供了一条可能的新途径。

具体而言,DALL-E [35] 表明,在众多图像 - 文本对上训练大规模自回归 transformer 可以通过文本 prompt 产生具有可控结果的高保真生成模型。Taming Transformer [36] 提出用带有鉴别器和感知损失 [37]-[39] 的 VQGAN 来学习离散图像表征,并证明了在高分辨率图像合成中将 CNN 的归纳偏置与 transformer 的表达能力相结合的有效性。


ImageBART [40] 通过学习反转多项式扩散过程来解决自回归 (AR) 图像合成问题,该方法通过引入语境信息来减轻 AR 模型的曝光误差(exposure bias)。前段时间的 NUWA [41] 提出了一种统一的多模态预训练模型,允许使用 3D transformer 编码器 - 解码器框架和 3DNA 机制生成或操作视觉数据(即图像和视频)。


随着生成模型和神经渲染的发展,还有一些研究探索了其他类型的模型,例如神经辐射场 (NeRF) [42] 和扩散模型 [43][44],以实现多模态图像合成和编辑。

论文的主要部分包括第 2 章 - 第 5 章的内容:

  • 第 2 章介绍了图像合成和编辑中流行的指导模态的基础;

  • 第 3 章全面概述了具有详细 pipeline 的多模态图像合成和编辑方法;

  • 第 4 章介绍了流行的数据集、评估指标和一些典型方法的定量实验结果;

  • 第 5 章讨论了多模态图像合成和编辑面临的主要挑战和未来方向。


感兴趣的读者可以阅读论文原文了解更多研究内容。
理论多模态学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

QGAN技术

清华和中科大的研究者在 Science Advances 上发表论文《Quantum generative adversarial learning in a superconducting quantum circuit》,介绍了他们在超导量子电路上实现了第一个生成对抗学习的原理验证,即量子版本的 GAN。据介绍,实验中生成的单个 qubit 的平均保真度为 98.8%。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

推荐文章
暂无评论
暂无评论~