Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

牛力机器之心专栏

收录180篇文献,上海交大推出深度学习图像合成领域首篇综述

收录 180 篇文献的首个深度学习图像合成技术综述文章。

图像合成 (image composition) 是指把一张图片的前景剪切下来,粘贴到另外一张背景图片上,得到一张合成图。广义来讲,把来自不同图片的多个视觉元素嫁接到同一张图片上,都属于图像合成的范畴。

图像合成有着广泛应用,比如人像换背景、虚拟社交、艺术创作、广告图片自动生成等等。为了得到理想的图像,图像合成和图像生成 (image generation) 往往会配合使用,图像生成负责从无到有,图像合成负责从有到优。图像生成的可控性有限,即使提供了大量的条件信息,也未必能生成完全符合预期的图片。从这个角度来说,图像合成更擅长精细控制,对完全符合预期的视觉元素进行拼接,得到真实合理的图片。相比较其重大的应用价值,图像合成并没有受到足够的关注。

本论文是第一篇系统性梳理图像合成技术的综述,共收录 180 篇文献,总结了图像合成需要解决的子问题以及每个子问题涉及的研究子方向和代表性方法,总结了各个研究子方向的数据库、评测标准、传统方法、深度学习方法。因为合成图中的前景和背景原本都是真实的,组成一个整体之后由于前景和背景之间的不一致性变得不真实,图像合成旨在解决前景和背景之间的不一致性,让合成图再次变得真实,因此综述取名叫 making images real again。

  • arXiv 链接:https://arxiv.org/pdf/2106.14490.pdf

  • GitHub 链接:https://github.com/bcmi/Awesome-Image-Composition

上图展示了得到一张合成图的过程,从一张图片上把前景用分割算法或者抠图算法剪切下来,粘贴到另外一张背景图片上,得到一张合成图。因此图像合成需要建立在分割 (segmentation) 算法或者抠图 (matting) 算法相对成熟的基础上,可以看成是分割算法或者抠图算法的下游任务。通过剪切复制得到的合成图可能会有诸多问题,影响合成图的真实程度和图片质量。

这些问题可以归结为合成图中前景和背景之间的不一致性 (inconsistency),进一步可分成外观不一致性 (appearance inconsistency) 和几何不一致性 (geometry inconsistency)。

外观不一致性和几何不一致性又可以细分成很多子问题。每个子问题都非常有挑战性,都具有独立的研究价值,所以从图像合成任务衍生出了很多子方向,每个子方向重点研究一个子问题。

图像合成任务看似简洁,实则包罗万象,涉及的技术纷繁复杂。在图像合成领域,之前有些工作只关注一个子问题,有些工作则同时关注多个子问题,任务设定各不相同,给人一种支离破碎的感觉。该综述试图理清各个研究工作之间的区别和联系,还原出一副较为完整的图景。有了完整的图景,在图像合成的过程中如果遇到具体问题,就能够很方便地找到对应的解决方案。接下来分别介绍外观不一致性和几何不一致性。

外观不一致性包括但不局限于:1)前景和背景之间不自然的边界; 2) 前景和背景不匹配的颜色光照信息;3) 缺失或不合理的前景阴影或反光。

关于第一个子问题,前景物体一般通过分割算法或者抠图算法获得,但是边缘往往不能被清晰完整地分离出来。如果把边缘不完美的前景粘贴到背景上,前景和背景之间就会存在不自然的边界。为了解决第一个子问题,图像融合 (image blending) 旨在消除不自然边界,让前景和背景无缝衔接。

关于第二个子问题,因为前景和背景可能是在不同的拍摄环境下 (天气、季节、时间、照相机参数) 拍摄的,得到的合成图就会看起来不和谐,比如前景是在白天拍摄的,背景是在夜间拍摄的。为了解决第二个子问题,图像和谐化 (image harmonization) 旨在调整前景的颜色光照信息,使其和背景看起来更和谐。

关于第三个子问题,当把前景粘贴到背景上,前景可能会对背景造成影响,比如阴影或者反光。为了解决第三个子问题,阴影或反光生成方法可以根据前景和背景信息为前景物体生成合理的阴影或者反光。因为反光生成的应用场景有限,相应的研究工作特别少,所以在本论文中我们侧重于前景物体的阴影生成。

几何不一致性包括但不局限于:1) 前景物体过大或者过小;2) 前景物体没有受力支撑,比如悬浮在空中;3) 前景物体出现在语义不合适的地方,比如船出现在内陆上; 4) 前景和周围物体存在不合理的遮挡关系;5)前景和背景的透视角度不一致。

总结起来就是前景物体的大小、位置、形状不合理。物体摆放 (object placement) 和空间形变 (spatial transformation) 旨在为前景寻找合理的大小、位置、形状,从而避免上面提到的诸多不合理因素。物体摆放一般来说主要是对前景物体进行平移和缩放,而空间形变则会涉及到相对复杂的几何形变,比如仿射变换或透视变换。

在本论文中,为了方便描述,我们用物体摆放指代任意几何形变。之前物体摆放的研究工作大多通过寻找合适的位置避免不合理的遮挡,也有少数工作探索当不合理遮挡发生时如何对前景进行调整,比如根据估计的深度信息把前景的被遮挡区域擦除。

上图展示了四个研究方向:物体摆放 (object placement), 图像融合 (image blending), 图像和谐化 (image harmonization), 阴影生成 (shadow generation)。模型输入原始合成图和前景掩码,输出调整之后更加真实自然的合成图。

之前的研究工作有些侧重于解决一个子问题,有些则同时解决多个子问题。为了方便寻找每个子方向的系列方法,比较不同工作的研究范围,我们在下表中列举了五个图像合成中的子问题: 边界 (boundary),外观(appearance, 主要指前景的颜色光照),阴影 (shadow), 几何信息 (geometry, 主要指大小位置形状),遮挡 (occlusion, 主要指前景被遮挡区域),并且将之前的研究工作对号入座。

从下表可以看出,大多数研究工作主要解决一个子问题,解决外观和几何的工作相对较多。其次有少量工作解决两个子问题,只有极少数工作解决三个及以上的子问题。

在解决了外观不一致性和几何不一致性之后,合成图看起来更加真实自然。但是有些时候,我们会对合成图提出更高的要求,不仅要求合理,而且要求美观。比如把一个花瓶放在另外一张背景图片的桌子上有无数种合理的大小和位置。然而考虑到构图规则和美学准则,只有部分位置和大小可以让整张图片看起来较为美观。

在这种情况下,我们需要对一张合成图进行美学评估。美学评估包含很多因素,比如光线、颜色和谐程度、颜色鲜艳程度、景深、三分法、对称性等等。上文介绍的图像和谐化可以提高整张图片的和谐程度,因此也可以被认为提高了图片的美学质量。在本论文中,我们重点关注和物体摆放直接相关的美学评估,即构图相关的美学评估。构图相关的美学评估主要考虑图片中视觉元素的布局,和前景物体的位置大小直接相关。

虽然图像合成有着非常广阔的应用前景,但是该技术也有可能被用来作恶,比如传播虚假消息、制作伪证等等,对人们的生活产生负面的影响。不仅是图像合成,图像生成也有同样的问题。所以我们在研究图像合成技术的同时,也要研究它的反面,即鉴别合成图。

现有一些图像伪造检测 (image manipulation detection) 的方法,利用前景和背景不同的噪音特征、照相机参数、颜色光照信息等线索鉴别一张图片是否是伪造的。伪造图像包含的范围很广,比如图像拼接 (image splicing)、图像填充、图像增强等等。其中图像拼接检测 (image splicing detection) 和图像合成最为契合。图像拼接检测可以识别出合成图,而且能成功定位到合成图中粘贴的前景物体。图像合成和图像拼接检测之间相互博弈,图像合成旨在让合成图片和真实图片不可区分,而图像拼接检测旨在把合成图片和真实图片区分开来。

尽管之前有不少图像合成的研究工作,图像合成领域也取得了很大的进步,但是该领域依然存在很多严峻的问题:

1)大多数工作只考虑把一个前景物体粘贴到另外一张背景图片上,并且假设前景物体是完整的。然而在现实应用中往往需要把多个前景物体合成在同一张背景图片上,并且前景物体可能残缺不全。因此我们需要改进图像合成算法使其能够适应复杂的应用场景。

2) 图像合成任务包含很多子问题,并且每个子问题都非常有挑战性,都可以开辟一个独立的研究子方向。但这种研究方式让图像合成领域有很强的割裂感,没有一个系统可以统一解决所有的子问题,给图像合成系统在真实应用场景中的部署带来了困难。

3) 之前的图像合成工作非常零散,不成体系。由于 ground-truth 数据极难获取,评测又有很强的主观性,很多子领域没有统一的数据集,不同的方法不能直接比较,在一定程度上阻碍了图像合成技术的发展。所以迫切需要为各个子领域建立统一的数据集,公平比较,推动各个子领域的发展。

4) 现有大多数方法都是从图片到图片,也就是 2D->2D。但一个直观的想法是从合成图推测出完整的前景和背景的 3D 信息、场景的光照信息等,根据这些完整信息实现图像和谐化、前景物体阴影生成等功能。然而,基于现有技术从单张图片推测出所有信息是非常困难的,预测不准可能会适得其反。但是 2D->3D->2D 仍然是一条值得探索的路径,或许可以找到 2D->2D 和 2D->3D->2D 之间难度适中、性能最佳的中间地带。

综上所述,本论文的贡献有三点:1)据我们所知,这是首篇深度学习图像合成技术综述。2) 我们对图像合成任务中需要解决的子问题以及针对每个子问题的研究子方向做了系统的梳理和总结,呈现出图像合成领域较为完整的图景。3) 为了综述的完整性,我们还介绍了构图相关的美学评估和图像拼接检测。而且,我们在 GitHub 上总结了图像合成相关的论文、代码、数据库,欢迎下载使用。
理论综述论文图像合成
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

推荐文章
暂无评论
暂无评论~