Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Racoon、蛋酱、小舟编译

黑白照片修复亦可「如假包换」,华人学者提出实例感知着色新方法

为黑白照片上色不难,但难在如何实现「以假乱真」。在这篇 CVPR 2020 论文中,研究者提出了一种全新的图像着色方法,通过检测出灰度图像中的不同目标,再对图像进行着色,使预测出的彩色图片更加接近真实色彩。

给黑白图像自动上色一直是个很有趣的话题,这方面的技术可广泛应用于旧照片和旧视频的修复,使百年旧照重新焕发生机。我们也会经常看到一些黑白照片修复成品,即使是上个世纪早期的旧照片,经过着色以后效果也十分惊艳。

玛丽莲·梦露经典造型。

1936 年,伦敦滑铁卢车站,人们第一次看到电视机。

但图像着色本质上是一个不适定问题(ill-posed problem),因为它具备多模态不确定性。也就是说,灰度图像的颜色是单通道的,但着色时却有多种选择。

以往的方法虽然也能在某些图像中达到相当不错的生成效果,但还没有一种方法能够很好地解决包含多个物体的图像着色问题,主要原因是现有的模型都是在整个图像上学习然后着色,在图形和背景无法清晰分离的情况下,这些模型无法很好地学习到有用的对象语义。

最近,来自国立清华大学和弗吉尼亚理工学院的研究者提出了一种新的实例感知着色方法。这一方法通过检测灰度图像中的不同目标,从而对图像进行着色,使预测出的彩色图片更加接近真实色彩。

  • 论文地址:https://arxiv.org/abs/2005.10825

  • GitHub 地址:https://github.com/ericsujw/InstColorization

  • Colab 地址:https://colab.research.google.com/github/ericsujw/InstColorization/blob/master/InstColorization.ipynb

现有方法的缺陷在于无法预测多对象实例图像中的合理颜色,上面一组图的滑雪者和下面一组图中的车辆都属于此类。由于图形和背景的分离不够清晰,着色结果也会出现一些「混乱」,比如使用 Deoldify 方法对第二组橙子图像进行着色,生成结果就会整体偏绿色。

现有方法和本文新方法的对比。

研究者利用现有的目标检测器获取裁剪后的图像,并使用实例着色网络提取对象级特征。随后,也是使用类似的网络去提取全图特征,并使用融合模块去填充对象级特征和图像级特征,来预测最终的颜色。研究者使用了几个大规模数据集,让着色网络和融合模块从中学习相应规则,实验结果表明,这一方法在多项 baseline 方法的对比评估中均实现 SOTA。

概述

论文所提方法以灰度图像作为输入,以端到端的方式预测其丢失的在 CIE L∗a∗b∗色彩空间中的两个色彩通道

下图 3 展示了所提网络的整体框架。

首先,研究者使用现成经过预训练的目标检测器,从灰度图像中获得多个目标的边界框。使用检测到的边界框从原灰度图中裁剪出不同物体,将裁剪后的图像调整大小后产生一系列实例图像。接着,将每个实例图像 X_i 与灰度图像 X 分别输入到实例着色网络(instance colorization network)与全图着色网络(full-image colorization network)中。两个网络使用相同的结构,但网络权值各不相同。

最后,研究者使用一个融合模块来将每一层中的所有实例特征与全图特征 f^X_j 相融合。融合后的全图特征之后被输入下一层网络中。重复以上过程直到最后一层,并获得预测的彩色图像 Y。研究者首先训练了全图网络,之后训练实例网络,最后冻结以上两个网络来训练特征融合模块。

图 3:方法概述。

该研究的方法利用检测到的对象实例来改进图像着色。为此,研究者采用一个现成经过预训练的 Mask R-CNN 作为目标检测器。

图像着色骨干网络

如上图 3 所示,该研究的网络包含两个着色网络分支,一个是为实例图像着色,另一个是为全图像着色。在选择这两个网络的结构时,要求两个网络有相同的层数,以利于特征融合。研究者采用了 Zhang 等人提出的着色网络作为骨干网络。

融合模块

研究者在此讨论了如何用多个实例特征来融合全图像特征,以达到更好的着色效果。图 4 展示了该融合模块架构。由于融合发生在着色网络的多个隐含层中,简单起见,研究者只给出了在第 j 层的融合模块。将该模块用于其他层遵循类似流程。

图 4. 特征融合模块

损失函数

研究采用如下δ = 1 的平滑 l_1 损失函数

实验

研究者给出了多个实验结果来验证所提出的实例感知着色方法。研究者在三个大规模数据集上对所提方法进行了定量评估,并结果与 SOTA 着色方法做了比较。之后还给出了对一些有挑战性图像的着色样例。

定量比较

在 ImageNet ctest10k、COCO-Stuff、Places205 这三个数据集上的定量比较结果如表 1 所示:

表 1. 在全图像层面上的定量比较。

表 2 总结了在 COCO-Stuff 数据集上所有实例的平均性能对比。

表 2. 在实例层面上的定量比较

上色视觉效果比较结果

下图展示了论文中提出的方法与其他基线方法在上色效果上的比较结果。研究者观察到,他们提出的方法在视觉质量上有着稳定的提升,尤其是对于那些包含多个实例的场景。

图 5:本文提出的方法与 SOTA 方法效果的比较。

图 6 显示了融合实例级别与完整图像级别特征的,在多个阶段上所学到的蒙版。实验表明,本文提出的实例感知流程可以改善复杂场景的视觉质量。

图 6:融合网络可视化。

理论图像着色不同目标感知
1
相关数据
损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

推荐文章
暂无评论
暂无评论~