人像抠图又出新作!来自谷歌的研究者提出了一种新的人像重照明和背景替换系统,可对图像背景进行替换,生成的肖像图的光照条件与新背景保持一致,还能有效地去除图片中的强光,细节恢复较好。
在人像抠图中,前景预测背景替换是至关重要的组成部分,此前也出现过各种效果不错的抠图方法,如商汤等提出的只需单张图像、单个模型的方法 MODNet、华盛顿大学单块 GPU 实现 4K 分辨率每秒 30 帧的 Background Matting 2.0 等。这些方法或多或少都有其局限性。近日,来自谷歌的几位研究者提出了一种全新的人像重照明(portrait relighting)和背景替换系统,该系统不仅保留了高频边界细节,并精确地合成了目标人像在新照明下的外观,从而为任何所需场景生成逼真的合成图像。相关论文已被 SIGGRAPH 2021 会议接收。![](https://image.jiqizhixin.com/uploads/editor/f43b170c-74b4-4ae6-a07c-1ffaf295ec10/640.png)
论文地址:https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf该研究的亮点和核心是通过前景蒙版(alpha matting)、重照明(relighting)和合成(compositing)进行前景估计。研究者在论文中表示,每个阶段都可以在一个连续的 pipeline 中处理,无需使用先验知识(如已知背景或已知照明),也无需专门的采集技术,仅使用单个 RGB 肖像图和新的目标 HDR 照明环境作为输入。模型训练中使用到了光阶段计算照明( light stage computational illumination )系统捕获的重照明肖像图,该系统记录了多种照明条件、高质量几何形状和精确的前景蒙版。此外,为了实现真实的重照明合成,研究者在深度学习框架中引入了一种新的每像素照明表征,它显式地建模肖像图外观的漫反射和镜面反射组件,生成了具有绝佳渲染非朗伯效果(如镜面反射高光)的重照明肖像。实验表明,该方法在处理自然环境图像中是有效的。![](https://image.jiqizhixin.com/uploads/editor/6ed10fc3-f21e-44f9-b8b9-66d211a770e9/640.gif)
![](https://image.jiqizhixin.com/uploads/editor/c76c0161-1024-4423-b5b0-8a45c14bfb70/640.gif)
![](https://image.jiqizhixin.com/uploads/editor/8e76a53e-2b6f-424e-a415-3c4507f1d975/640.gif)
研究者提出的框架包含以下几个步骤,首先 matting 模块根据给定的 RGB 肖像图估计前景蒙版和前景,然后估计的前景和目标 HDR 照明环境馈入重照明模块,该模块负责推理表面几何形状和反照率,并使用每像素重照明表征来显式地建模着色后外观的漫反射和镜面反射组件。最后,前景蒙版、重照明结果和新背景合成在一起,生成了一张具有新背景的重照明肖像图,并且肖像图的光照条件与新背景保持一致。![](https://image.jiqizhixin.com/uploads/editor/2b941c24-491e-4c9d-95b9-7f5fdbb12859/640.png)
重照明模块又包含以下几个步骤,首先使用几何网络(Geometry Network)来估计输入前景的每像素表面法线 N,然后利用表面法线和前景 F 来生成反射率(albedo)A。使用扩散和镜面卷积运算对目标 HDR 照明环境进行预过滤,然后通过表面法线或者反射向量对预过滤后的 map 进行采样,从而生成目标照明(光照图)漫反射和镜面反射的每像素表征。接着,使用着色网络(Shading Network)生成最终的重照明前景。![](https://image.jiqizhixin.com/uploads/editor/4ee5a2e0-d945-49fb-88c1-1eb83d2c8357/640.png)
着色网络是如何工作的呢?首先,使用镜面网络(specular network)来预测单个镜面光照图,并作为输入。然后,将预测得到的镜面光照图与漫反射分量和反射率连接,并经由最终的神经渲染网络生成重照明前景。具体工作流程如下图 5 所示:![](https://image.jiqizhixin.com/uploads/editor/f62b75f2-9772-4d93-bed1-7b45807aecae/640.png)
最后,使用神经渲染器执行实际的图像合成,所使用架构 U-Net 与 Geometry Net 和 Albedo Net 的结构相同。研究者利用神经渲染器补偿近似(approximation)以及预测到中间图像中的任何残差。![](https://image.jiqizhixin.com/uploads/editor/a20b45f7-8f01-4141-8e68-faa9efe590f7/640.jpeg)
在实验中,研究者从重照明效果和 matting 模块效果两个方面将提出的方法和 SOTA 方法进行了比较。该研究将重照明模块与两种 SOTA 单幅肖像重照明方法进行了比较:对于在光照阶段拍摄的评估对象,该研究有真实重光照结果,可以对不同技术进行定性和定量比较。定性结果如下图 10 所示,所提出的方法优于以前 SOTA 方法,增加了照片的真实性。![](https://image.jiqizhixin.com/uploads/editor/794833c6-f8b2-4fe0-952e-ac5db800297f/640.jpeg)
定量评价结果如下表 1 所示,该研究所提出的方法在肖像重照明任务的每个指标上都优于 SOTA 技术。![](https://image.jiqizhixin.com/uploads/editor/a4793f73-8797-4db7-8788-b66728335e21/640.png)
研究者还比较了在任意光照条件下拍摄的户外人像的不同方法,其定性结果如下图 11 所示。结果表明,该方法在从输入图像(第一列)中去除强光高光方面特别有效,并且可以很好地泛化到户外图像。![](https://image.jiqizhixin.com/uploads/editor/f16be0e6-aa40-40be-b294-fce8cfd6153c/640.jpeg)
为了验证自定义人像 matting 模块的必要性,研究者将提出的方法与 Li and Lu [2020] 和 Xu [2017] 等人的方法进行了对比。![](https://image.jiqizhixin.com/uploads/editor/c1bfa9e2-3179-475e-9031-d63664e9f0b8/640.jpeg)
值得注意的是,这种尤其针对人像训练的方法要优于以往的预训练方法。下图 13 中展示了定性结果,该研究提出的方法能够恢复更清晰的边界和精细的细节,从而获得更精确的前景蒙版。![](https://image.jiqizhixin.com/uploads/editor/7c7fc82f-ed19-495f-ac3c-f375a30aad61/640.jpeg)