路雪报道

精细到头发丝,Adobe深度抠图方法的实现来了!

抠图是件体力活。传统抠图算法主要是以色彩为特征分离前景与背景,并在小数据集上完成,这造成了传统算法的局限性。去年年初,Adobe 等机构发表论文《Deep Image Matting》,采用大规模数据集与深度神经网络学习图像的自然结构,进一步分离图像的前景与背景。今年,有研究人员复现了该方法,并发布在 GitHub 上。

  • GitHub 地址:https://github.com/foamliu/Deep-Image-Matting
  • 预训练模型地址:https://github.com/foamliu/Deep-Image-Matting/releases/download/v1.0/final.42-0.0398.hdf5

论文《Deep Image Matting》中提出的深度模型包括两个阶段:

  • 第一阶段是深度卷积编码-解码网络(deep convolutional encoder-decoder network),该神经网络将图像和相对应的三分图(trimap)作为输入,并预测图像的 α 蒙版(alpha matte)。

  • 第二阶段是一个小型卷积神经网络,该神经网络对第一个网络预测的α蒙版进行精炼从而拥有更准确的 α 值和锐化边缘。

该模型用这两个阶段实现较为完善的抠图过程,而且抠图效果相当不错,连头发丝都看得见。

该研究提出的抠图精炼网络的效果。a) 输入图像。b) 编码-解码阶段的输出。c) 精炼阶段的输出结果。

复现

前不久,分众传媒大数据部技术总监兼首席数据科学家刘杨复现了该研究,并发布在 GitHub 上。该 repo 介绍了使用的框架、数据、模型、运行代码等,并展示了抠图效果,以及抠图后与其他图像的合成效果,如下图所示:

第一列为输入图像和对应三分图(trimap),第二列为输出图像和真值(ground truth,GT),第三列为新的背景和合成图像。

从下图第一个例子中可以看到输入图像中动物的毛发甚至腿上的一些其他颜色的印记都可以在抠图过程中很好地保留,而将抠图后的输出与新的背景图像进行合成后的效果也很自然。你能看出来这是抠图合成的图像吗?

下图第二个例子中对人物头发的处理效果也很惊艳,发丝丝丝分明,与新背景图像的合成效果也很不错。

第三个例子中的蒲公英的抠图效果也很不错,不过看最终合成图,似乎把原始图像中的背景(蓝天)也「抠」下来了一部分……不过乍一看依然很惊艳啦~

更多示例参见该 GitHub repo,大家也可以试一试抠图效果哇~

入门深度抠图Adobe
31
相关数据
数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

推荐文章
不错