路雪 刘晓坤翻译

谷歌开源最新语义图像分割模型DeepLab-v3+

刚刚,谷歌开源了语义图像分割模型 DeepLab-v3+,DeepLab-v3+结合了空间金字塔池化模块和编码器-解码器结构的优势,是自三年前的 DeepLab 以来的最新、性能最优的版本。

GitHub 地址:https://github.com/tensorflow/models/tree/master/research/deeplab

语义图像分割任务是指将语义标签(例如「道路」、「天空」、「人」、「狗」)分配给图像中的每一个像素,这种技术有很多新应用,例如,Pixel 2 和 Pixel 2 XL 智能手机中肖像模式的合成浅景深效应,以及移动设备的实时语义分割等。分配这些语义标签的时候需要精准定位目标的轮廓,因此相比其他的视觉实体识别任务(如图像级分类或边界框级检测等),该任务需要更高的定位准确率。

今天,谷歌开源了其最新、性能最优的语义图像分割模型 DeepLab-v3+ [1],该模型使用 TensorFlow 实现。DeepLab-v3+ 模型建立在一种强大的卷积神经网络主干架构上 [2,3],以得到最准确的结果,该模型适用于服务器端的部署。此外,谷歌还分享了他们的 TensorFlow 模型训练和评估代码,以及在 Pascal VOC 2012 和 Cityscapes 基准语义分割任务上预训练的模型。

自三年前谷歌发布第一个版本的 DeepLab 模型 [4] 以来,CNN 特征提取器、目标尺度建模技术、语境信息处理、模型训练流程、深度学习硬件和软件的不断改进和优化,促使该模型升级到了 DeepLab-v2 [5] 和 DeepLab-v3 [6]。谷歌通过添加一个简单而有效的解码器模块以精炼分割结果(尤其是在目标边界处),将 DeepLab-v3 扩展为 DeepLab-v3+。他们还进一步将深度可分卷积(depthwise separable convolution)应用到金字塔型的空洞池化(Atrous Spatial Pyramid Pooling,ASPP)[5, 6] 和解码器模块上,以得到更快更强大的语义分割编码器-解码器网络。

现代语义图像分割系统都是建立在卷积神经网络之上,并达到了五年前无法想象的准确率,这得归功于方法、硬件和数据集的优化。谷歌希望通过和社区共享该系统,学界和业界能更容易地复现和提升当前最优系统,在新的数据集上训练模型,以及为该技术开发新的应用。

论文:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

论文链接:https://arxiv.org/abs/1802.02611

摘要:深度神经网络使用空间金字塔池化模块或编码器-解码器结构执行语义分割任务。前者通过在多个 rate、多个有效视野上用滤波器探测输入特征或执行池化操作,来编码多尺度的上下文信息;后者通过逐渐恢复空间信息来捕捉更加精细的目标边界。在这项研究中,我们将二者的优势结合起来。具体来说,我们通过添加一个简单有效的解码器模块以精炼分割结果(尤其是目标边界),将 DeepLab-v3 扩展为本文提出的新模型 DeepLab-v3+。我们进一步探索了 Xception 模型,并将深度可分卷积应用到金字塔型的空洞池化(ASPP)和解码器模块上,以得到更快更强大的编码器-解码器网络。我们在 PASCAL VOC 2012 语义图像分割数据集上证明了该模型的有效性,在没有任何后处理的情况下该模型达到了 89% 的准确率。

参考阅读:

资源 | 从全连接层到大型卷积核:深度学习语义分割全指南

原文链接:https://research.googleblog.com/2018/03/semantic-image-segmentation-with.html

工程
暂无评论
暂无评论~
返回顶部