AI科技大本营来源

一块GPU就能训练语义分割网络,百度PaddlePaddle是如何优化的?

引言:显存不足是训练语义分割网络常常遇见的问题,而显存是GPU计算中的稀缺资源。百度深度学习框架PaddlePaddle中的显存优化,不仅可以让研究人员在相同成本的计算设备上训练更大的模型,还可以在消费级别显卡上完成训练。在本篇文章中,我们将会带你使用PaddlePaddle中的显存优化,使用单张1080ti训练语义分割网络DeepLab v3+。同时作者还将训练结果与其他框架做了对比,PaddlePaddle在推断、训练以及显存消耗上,资源占用节省一半,速度提升近一倍。

一、 图像语义分割模型DeepLab v3

随着计算机视觉的发展,语义分割成为了很多应用场景必不可少的一环。 比如网络直播有着实时剔除背景的要求,自动驾驶需要通过语义分割识别路面,与日俱增的应用场景对语义分割的精度和速度的要求不断提高。同时,语义分割数据集也在不断地进化,早期的Pascal VOC2,其分辨率大多数在1000像素以下。而Cityscape的语义分割数据集分辨率全部达到了1024*2048,总共5000张图片(精细标注),包含19类。这些数据集对研究者,计算设备,甚至框架都带来了更大的考验。

DeepLab v3+ 是DeepLab语义分割系列网络的最新作,其前作有 DeepLab v1,v2, v3, 在最新作中,Liang-Chieh Chen等人通过encoder-decoder进行多尺度信息的融合,同时保留了原来的空洞卷积和ASSP层, 其骨干网络使用了Xception模型,提高了语义分割的健壮性和运行速率。其在Pascal VOC上达到了 89.0% 的mIoU,在Cityscape上也取得了 82.1%的好成绩,下图展示了DeepLab v3+的基本结构4:

DeepLab v3+在主干网络之后连接了Encoder和Decoder,能够在扩大网络感受的同时获得更加高清的分割结果。

在PaddlePaddle的模型库中已经包含了DeepLab v3+的训练以及测试的代码。我们首先安装最新版本的PaddlePaddle并且下载PaddlePaddle的模型库:

pip install -U paddlepaddle git clone https://github.com/PaddlePaddle/models.git

当模型仓库成功克隆,你将可以在目录fluid/PaddleCV/deeplabv3+ 下看到用于训练以及测试的代码:

ls fluid/PaddleCV/deeplabv3+ # ├── models.py # 网络结构定义脚本 # ├── train.py # 训练任务脚本 # ├── eval.py # 评估脚本 # └── reader.py # 定义通用的函数以及数据预处理脚本

二、开始训练

当数据和代码都已经准备好,我们可以开始训练了,训练的参数和指令如下:

CUDA_VISIBLE_DEVICES=0 FLAGS_fraction_of_gpu_memory_to_use=0.99 inplace_normalize=1 fuse_relu_before_depthwise_conv=1 python3 /home/cjld/nfs/liangdun/deeplabv3+/train.py --batch_size=-1 --train_crop_size=-1 --total_step=10 --base_lr=0.005 --train_set=train --norm_type=gn --save_weights_path=$YOUR_SAVE_WEIGHTS_PATH –dataset_path=$YOUR_DATASET_PATH

在这个命令中,我们没有使用任何预训练模型,从噪音开始训练DeepLab v3+。并且是直接使用全分辨率进行训练(1024x2048,batch size=1)。几个比较关键的参数解释如下:

  • 环境变量CUDA_VISIBLE_DEVICES=0限制了训练过程仅使用一张GPU,如果存在多张GPU,可以通过修改参数来得到训练速度的提升。

  • 环境变量FLAGS_fraction_of_gpu_memory_to_use=0.99, 该环境变量将会让PaddlePaddle占用99%的显存,可以根据实际情况进行调节。

  • 环境变量inplace_normalize=1,该参数是PaddlePaddle进行显存优化的关键,打开该开关将会让框架对normalize layer进行 inplace 操作来优化显存,现在支持的 normalize layer 有 group normalize。

  • 环境变量fuse_relu_before_depthwise_conv=1,该参数是显存优化的另一个关键参数。这个参数会融合relu和depthwise conv来优化显存。

  • 参数--save_weights_path=$YOUR_SAVE_WEIGHTS_PATH, 这里你需要填入保存模型的路径。

  • 参数--dataset_path=$YOUR_DATASET_PATH, 这里你需要填入数据集的路径。

三、空间时间消耗分析

根据打印出来的信息,我们可以发现,PaddlePaddle在训练DeepLab v3+时,输入一张全分辨率的图片,显存消耗为10.2GB。得益于显存消耗小于11G,我们可以使用1080ti完成训练,训练中每次迭代速度约为0.85s。

我们还可以使用工具,分析DeepLab v3+各部分显存消耗情况:

在该图中,显存消耗最多的是主干网络,占用了68.1%,其次是decoder部分,占用了16.4%,以及encoder占用了5.3%,剩下其他部分为损失函数和数据预处理的显存消耗。

显存消耗最多的是主干网络,占用了68.1%,我们可以继续查看主干网络内部显存消耗情况:

这个图展示了在主干网络中的显存消耗,Xception主干网络主要由三部分组成, EntryFlow,MiddleFlow,以及ExitFlow,可以发现显存消耗最大的是EntryFlow。

在上图中,我们可以发现,尽管Xception主干网络层数最多的部分是MiddleFlow,但是显存消耗最大的却是EntryFlow,这是因为在EntryFlow里的特征还没有被充分下采用,分辨率相当高,同时EntryFlow里的通道数也不容小觑,因此造成了EntryFlow巨大的显存开销,这也为我们的优化指明了方向。

DeepLab v3+使用的主干网络 Xception, MiddleFlow中的分离卷积块重复了16次,层数相比较EntryFlow和ExitFlow要多得多,然而显存消耗最大的却是EntryFlow。

框架对比

除开对网络内部的显存消耗进行分析,我们还对不同框架的显存消耗进行了对比,下表展示了PaddlePaddle和TensorFlow1.12的显存消耗以及性能对比,以下对比实验使用的输入数据是1024x2048全分辨率的图片,batch size为1,测试设备P40(24G):

四、优化原理

这里我们采用的显存优化策略是 fuse_relu_before_depthwise_conv 和 inplace_normalize。顾名思义,fuse_relu_before_depthwise_conv 是讲relu和depthwise_conv融合为同一个operator, 达到显存的节省。而 inplace_normalize 则是使用原地操作来节省显存。在卷积神经网络中,conv+normalize+activation是常见模式,在这种模式下,使用这两种优化策略,可以节省3倍的显存。这两种优化策略归纳起来就是操作融合和原地计算, 是显存优化中的常见策略, 对于不同的框架常常需要耗费人力进行开发, 而我们通过paddle的显存优化可以很轻松的实现这一点。 该优化图示如下:

在该图中,红框标注的data为会消耗显存的数据块,可以看到,通过inpalce和fuse两种操作,原来需要存储6个数据块,优化后仅仅需要2个数据块。

在上图中,我们可以发现,inplace和fuse两种操作,都分别帮助我们在每一个conv+normalize+activation块中节省了1个数据块,所以显存节省的更多了,我们的分割网络也可以消耗更少的显存资源。

总结

显存空间优化和时间优化一样,对空间消耗的压榨是没有止境的。层出不穷的模型,各种不同的优化方式,都对框架提出了很高的要求,选择一款兼顾效果和性能的深度学习框架,往往能够让项目事半功倍。

1. The cityscapes dataset for semantic urban scene understanding.

2. The pascal visual object classes challenge.

3. The Mapillary Vistas Dataset for Semantic Understanding of Street Scenes.

4. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation.

PaddlePaddle
PaddlePaddle

PaddlePaddle是百度独立研发的深度学习平台,易用,高效,灵活可伸缩,可支持海量图像识别分类、机器翻译和自动驾驶等多个领域业务需求,现已全面开源。

理论深度学习卷积神经网络TensorFlowGPUPaddlePaddle百度语义分割
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

空洞卷积技术

空洞卷积最大的特性就是扩张感受野,它不是在像素间插入空白像素,而是略过一些已有的像素。当然,我们也可以理解为保持输入不变,并向卷积核中添加一些值为零的权重,从而在计算量基本不变的情况下增加网络观察到的图像范围或序列长度。

推荐文章
暂无评论
暂无评论~