Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

牛力作者

CVPR 2020 | 让合成图像更真实,上交大提出基于域验证的图像和谐化

近日,计算机视觉顶会 CVPR 2020 接收论文结果公布,从 6656 篇有效投稿中录取了 1470 篇论文,录取率约为 22%。本文介绍了上海交通大学被此顶会接收的一篇论文《Deep Image Harmonization via Domain Verification》。


图像合成 (image composition) 是图像处理的常用操作,把前景从一张图上剪贴下来粘贴到另一张图上,获得一张合成图。合成图可以用来获取感兴趣的目标图像,也可以用于数据增广,有着广泛的应用的前景。但通过这种方式得到的合成图存在诸多问题,比如前景的大小或位置不合理、前景和背景看起来不和谐等等。我们的工作侧重于解决合成图中前景和背景不和谐的问题。具体来说,在合成图中,前景和背景是在不同的拍摄条件 (比如时刻、季节、光照、天气) 下拍摄的,所以在亮度色泽等方面存在明显的不匹配问题。图像和谐化 (image harmonization) 旨在调整合成图中的前景,使其与背景和谐。

传统的图像和谐化方法一般是从背景或者其他图片转移颜色信息到前景上,但这样无法保证调整之后的前景看起来真实并且与背景和谐。近年来,已经有少量的工作尝试用深度学习做图像和谐化,但成对的合成图和真实图极难获得。如果没有成对的合成图和真实图,深度学习的训练过程缺乏足够强的监督信息,合成图和谐化之后的结果也没有 ground-truth 用于评测。截至目前还没有公开的大规模图像和谐化数据库,我们构建并公布了由四个子数据库组成的图像和谐化数据库。并且,我们提出了域验证 (domain verification) 的概念,尝试了基于域验证的图像和谐化算法。
  • 数据库和代码已公布: 

    https://github.com/bcmi/Image_Harmonization_Datasets

  • 论文地址: https://arxiv.org/abs/1911.13239

我们构建数据库的方法仿照 [1] 中的策略,具体来说,给定一张真实图,选择一个前景进行调整使其和背景不和谐,得到一张人造的合成图。这种构建数据库的方式可以产生大规模成对的训练数据用以训练深度学习模型。但是 [1] 没有公布其构建的数据库,并且 [1] 建库的方式在合成图的合理性和多样性上存在明显不足。对前景进行调整使其和背景不和谐并不困难,简单的改变前景亮度即可快速生成大量的合成图。然而,如果要保证合成图的合理性和多样性并且接近实际的应用场景,则非常困难。因此,我们构建了一个 [1] 中数据库的增广增强版本,共包含 73,146 对合成图和真实图的数据库。我们的数据库包含四个子数据库:HCOCO, HAdobe5k, HFlickr, Hday2night,其中 Hday2night 是 [1] 中没有的子数据库。Hday2night 的合成图更接近真实的合成图,因此相比较其他三个子数据库有特殊的参考价值。我们针对产生合成图的种种问题,用两轮自动筛选和逐张人工筛选保证最终保留图片的质量。我们对最终的数据库做了全面细致的分析,包括不同的前景比例、不同的前景调整方法、不同的语义种类对图像和谐化数据库以及图像和谐化算法结果的影响,详见论文的补充材料。接下来,我们从每个子数据库选两个例子展示我们的数据库。如下图所示,我们对真实图片 (real image) 的前景 (mask 对应的区域) 进行调整,得到合成图 (synthesized composite)。可以看出在合成图中,前景虽然真实,但是和背景明显违和,整张图看起来不真实。图像和谐化的任务是调整合成图的前景,使其与背景和谐。

域 (domain) 是一个非常宽泛的概念,在不同的应用任务中被赋予了不同的含义。围绕域 (domain) 相关的应用也吸引了越来越多研究者的兴趣,比如域适应 (domain adaptation)、域泛化 (domain generalization)、域分类 (domain classification)、域翻译 (domain translation) 等等。最近很多流行的图像到图像翻译 (image-to-image translation) 的方法比如 pix2pix, cycleGAN, MUNIT, DRIT 等都属于域翻译的范畴。域翻译的一个经典应用是把白天的风景图转化成夜景图,其中白天 (daytime) 和夜晚 (night) 可以当作两个域 (domain)。类似的,我们把每一种拍摄条件(比如时刻、季节、光照、天气)当作一个域 (domain),因此真实图片存在无穷多个可能的域。真实图的前景和背景是在相同的拍摄条件下拍摄的,因此属于相同的域。合成图的前景和背景可能是在不同的拍摄条件下拍摄的,因此属于不同的域。我们不知道合成图中前景和背景的域标签 (domain label), 只需要把前景迁移到和背景相同的域。因此图像和谐化 (image harmonization) 可以看成是特殊场景下的域翻译 (domain translation)。据此,我们提出了域验证 (domain verification) 的概念,即判断前景和背景是否属于同一个域,并设计了域验证鉴别器(domain verification discriminator),用于拉近和谐后的前景和背景的域。我们的整体网络结构如下图所示。

 我们生成器的结构基于 UNet 实现,但是增加了类似于 [2] 中的注意力机制 (attention block)。另外,我们引入了两个鉴别器,第一个鉴别器是生成对抗网络(GAN)里面标准的鉴别器,作用于整张图片,使得生成图片的数据分布和真实图片的数据分布接近。第二个鉴别器就是我们提出的域验证鉴别器,使得生成图中前景和背景的域尽可能接近。具体来说,我们首先用部分卷积 (partial convolution) 分别提取前景和背景的域表征。部分卷积最早应用于图像填充 (image inpainting),在这里用来提取形状不规则的前景和背景的域表征,可以避免其他区域的信息泄露和默认填充方法的干扰。基于前景和背景的域表征,我们提出了域验证损失 (domain verification loss)。我们的域验证损失虽然最终包装成了对抗损失 (adversarial loss) 的形式,但本质上是基于前景和背景域表征相似度的验证损失 (verification loss)。在我们构建的数据库上,我们比较了我们的方法、传统的图像和谐化方法和基于深度学习的图像和谐化方法。实验结果表明我们的方法优于现有的方法。可视化结果的比较见下图,我们比较了之前的图像和谐化深度学习方法 DIH 和 S2AM,也比较了我们不用域验证鉴别器(domain verification discriminator)的方法。

并且,我们还在 [1] 提供的 99 张真实合成图上进行用户主观评测(user study), 结果表明我们的方法优于现有的方法。关于量化指标,因为有 ground-truth 的真实图,我们可以定量评测生成图的效果。我们沿用 [1] 的 MSE 和 PSNR, 同时也提出了只考虑前景的 fMSE,因为对于前景比例较小的合成图,转换之后的前景误差可能会被背景的重构误差淹没。我们也尝试了其他的量化指标比如 SSIM、LPIPS 等等,但是由于合成图和真实图在结构和语义层面非常接近,我们观察发现这些量化指标并不十分可靠。所以,我们最终只用了定量指标 MSE/fMSE、PSNR 和用户主观评测的指标 B-T score。关于我们方法的技术细节和全部的实验结果,请参见论文正文和补充材料。欢迎大家关注我们的数据库和方法,关注图像和谐化领域。

参考文献:
[1] Tsai, Yi-Hsuan, et al.「Deep image harmonization.」In CVPR, 2017. 
[2] Cun, Xiaodong and Pun, Chi-Man.「Improving the harmony of the composite image by spatial-separated attention module.」, TIP, 2019.
入门CVPR 2020图像合成上海交通大学
4
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

推荐文章
暂无评论
暂无评论~