基于UAI-Train平台的分布式训练

在大型数据集上进行训练的现代神经网络架构,可以跨广泛的多种领域获取可观的结果,涵盖从图像识别、自然语言处理到欺诈检测和推荐系统等各个方面,但训练这些神经网络模型需要大量浮点计算能力。虽然,近年来 GPU 硬件算力和训练方法上均取得了重大进步,但在单一机器上,网络训练所需要的时间仍然长得不切实际,因此需要借助分布式GPU环境来提升神经网络训练系统的浮点计算能力。

TensorFlow分布式训练

TensorFlow分布式训练概述图)

TensorFlow 采用了数据流范式, 使用节点和边的有向图来表示计算。TensorFlow 需要用户静态声明这种符号计算图,并对该图使用复写和分区(rewrite & partitioning),将其分配到机器上进行分布式执行。

TensorFlow训练数据流转图)

TensorFlow 中的分布式机器学习训练使用了如图所示的参数服务器方法 。

Cluster、Job、Task

关于TensorFlow的分布式训练,主要概念包括Cluster、Job、Task,其关联关系如下:


1.  TensorFlow分布式Cluster由多个Task组成,每个Task对应一个tf.train.Server实例,作为Cluster的一个单独节点;2.  多个相同作用的Task可以被划分为一个Job,在分布式深度学习框架中,我们一般把Job划分为Parameter Server和Worker,Parameter Job是管理参数的存储和更新工作,而Worker Job运行OPs,作为计算节点只执行计算密集型的Graph计算;3.  Cluster中的Task会相对进行通信,以便进行状态同步、参数更新等操作,如果参数的数量过大,一台机器处理不了,这就要需要多个Task。

TensorFlow分布式计算模式

◆  In-graph 模式

In-graph模式,将模型计算图的不同部分放在不同的机器上执行。把计算从单机多GPU扩展到了多机多GPU, 不过数据分发还是在一个节点。这样配置简单, 多机多GPU的计算节点只需进行join操作, 对外提供一个网络接口来接受任务。训练数据的分发依然在一个节点上, 把训练数据分发到不同的机器上, 将会影响并发训练速度。在大数据训练的情况下, 不推荐使用这种模式。

◆  Between-graph 模式

Between-graph模式下,数据并行,每台机器使用完全相同的计算图。训练的参数保存在参数服务器,数据不用分发,而是分布在各个计算节点自行计算, 把要更新的参数通知参数服务器进行更新。这种模式不需要再练数据的分发, 数据量在TB级时可以节省大量时间,目前主流的分布式训练模式以 Between-graph为主。

参数更新方式

◆  同步更新

各个用于并行计算的节点,计算完各自的batch 后,求取梯度值,把梯度值统一送到PS参数服务机器中,并等待PS更新模型参数。PS参数服务器在收集到一定数量计算节点的梯度后,求取梯度平均值,更新PS参数服务器上的参数,同时将参数推送到各个worker节点。

◆  异步更新

PS参数服务器只要收到一台机器的梯度值,就直接进行参数更新,无需等待其它机器。这种迭代方法比较不稳定,因为当A机器计算完更新了PS参数服务器中的参数,可能B机器还是在用上一次迭代的旧版参数

分布式训练步骤

1. 命令行参数解析,获取集群的信息ps_hosts和worker_hosts,以及当前节点的角色信息job_name和task_index

2. 创建当前Task结点的Server

cluster = tf.train.ClusterSpec({“ps”: ps_hosts, “worker”: worker_hosts})server = tf.train.Server(cluster, job_name=FLAGS.job_name, task_index=FLAGS.task_index)

3. 如果当前节点是Parameter Server,则调用server.join()无休止等待;如果是Worker,则执行下一步

if FLAGS.job_name == “ps”:server.join()

4. 构建要训练的模型

# build tensorflow graph model

5. 创建tf.train.Supervisor来管理模型的训练过程

# Create a “supervisor”, which oversees the training process.sv = tf.train.Supervisor(is_chief=(FLAGS.task_index == 0), logdir=”/tmp/train_logs”)# The supervisor takes care of session initialization and restoring from a checkpoint.sess = sv.prepare_or_wait_for_session(server.target)# Loop until the supervisor shuts down

while not sv.should_stop()

# train model

UAI-Train分布式训练部署

UCloud AI 训练服务(UCloud AI Train)是面向AI训练任务的大规模分布式计算平台,基于高性能GPU计算节点提供一站式托管AI训练任务服务。用户在提交AI训练任务后,无需担心计算节点调度、训练环境准备、数据上传下载以及容灾等问题。

目前,UAI-Train平台支持TensorFlow 和 MXNet 框架的分布式训练。需要将PS代码和Worker代码实现在同一个代码入口中,执行过程中,PS 和 Worker 将使用相同的Docker容器镜像和相同的python代码入口进行执行,系统将自动生成PS和Worker的env环境参数TensorFlow 分布式训练采用PS-Worker的分布式格式,并提供python的接口运行分布式训练。

(图:AI训练平台概述)

UAI-Train分布式训练采用Parameter Server和Worker Server混合部署的方法,所有计算节点均由GPU物理云主机组成。PS 仅使用CPU进行计算,Worker Server则同时使用GPU和CPU进行计算,PS 和 Worker的比例为1:1。

(图:AI 训练平台分布式训练集群部署范例)

数据存储

分布式训练所使用的输入数据可以来自不同的数据源,目前UAI-Train仅支持UFS作为数据的存储。

◆  Input 数据存储

指定一个UFS网盘作为Input数据源,UAI-Train平台在训练执行过程中会将对应的UFS数据映射到训练执行的Worker容器的 /data/data 目录下,系统会自动将数据映射到执行的容器中,如 ip:/xxx/data/imagenet/tf → /data/data/。

◆  Output 数据存储

指定一个UFS网盘作为output数据源,UAI-Train平台在训练执行过程中会将对应的UFS数据映射到训练执行的每一个PS容器和Worker容器的 /data/output 目录下,并以共享的方式访问同一份数据。同时,在训练过程,可以通过其它云主机实时访问训练保存的模型checkpoint。

案例分析:通过CIFAR-10进行图像识别

CIFAR-10是机器学习中常见的图像识别数据集,该数据集共有60000张彩色图像。这些图像分为10个类,每类6000张图,有50000张用于训练,另外10000用于测试。

http://groups.csail.mit.edu/vision/TinyImages/

(图:CIFAR-10数据集简介)

调整训练代码

为了在UAI平台上进行训练,首先下载源代码,并对cifar10_main.py做如下修改:

1. 添加相关参数–data_dir, –output_dir, –work_dir, –log_dir, –num_gpus,UAI-Train平台将会自动生成这些参数

2. 在代码中增加UAI参数:使用data_dir配置输入文件夹、使用output_dir配置输出文件夹。

具体案例代码可以在https://github.com/ucloud/uai-sdk/tree/master/examples/tensorflow/train/cifar 获取。

在UAI-Train平台执行训练

1. 根据https://github.com/tensorflow/models/tree/master/tutorials/image/cifar10_estimator 的说明生成CIFAR-10的tfrecords

2. 使用UAI-SDK提供的tf_tools.py 生成CIFAR-10样例的Docker镜像;

3. 确保Docker镜像已经上传至UHub,在UAI-Train平台上执行。

/data/cifar10_main.py –train-batch-size=16

在UAI平台上的分布式训练

CIFAR-10样例代码使用tf.estimator.Estimator API,只需一个分布式环境和分布式环境配置,便可直接进行分布式训练,该配置需要适用于tf.estimator.Estimator API的标准,即定义一个TF_CONFIG 配置。

TF_CONFIG = {“cluster”:{“master”:[“ip0:2222″],”ps”:[“ip0:2223″,”ip1:2223″],”worker”:[“ip1:2222”]},

“task”:{“type”:”worker”,”index”:0},

“environment”:”cloud”

}

UAI-Train平台的分布式训练功能可以自动生成TensorFlow分布式训练的GPU集群环境,同时为每个训练节点自动生成TF_CONFIG。因此,在UAI-Train平台上执行CIFAR-10的分布式训练和单机训练一样,仅需要指定input/output的UFS地址并执行如下指令即可:

/data/cifar10_main.py –train-batch-size=16

总结

UAI-Train TensorFlow的分布式训练环境实现基于TensorFlow 的分布式训练系统实现,采用默认的grpc协议进行数据交换。PS和Worker采用混合部署的方式部署,PS使用纯CPU计算,Worker使用GPU+CPU计算。

在UAI-Train平台中可以非常方便的开展分布式计算,提高效率、压缩训练时间。最后通过CIFAR-10 案例解析在UAI-Train平台上进行训练所需作出的修改,并在UAI-Train平台上进行分布式训练。

想要获取更多技术和活动资讯,可扫描以下二维码,关注“UCloud技术公告牌”微信公众号;或搜索微信ID:ucloud_tech进行关注。

UCloud技术
UCloud技术

分享UCloud的技术创新、架构设计、实践总结,内容同步于微信公众号“UCloud技术公告牌”

https://www.ucloud.cn/
专栏二维码
理论分布式计算UAI-TrainTensorFlowNLP神经网络
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

MXNet技术

MXNet是开源的,用来训练部署深层神经网络的深度学习框架。它是可扩展的,允许快速模型训练,并灵活支持多种语言(C ++,Python,Julia,Matlab,JavaScript, Go,R,Scala,Perl,Wolfram语言)

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

分布式计算技术技术

在计算机科学中,分布式计算,又译为分散式運算。这个研究领域,主要研究分布式系统如何进行计算。分布式系统是一组电脑,通过网络相互链接传递消息与通信后并协调它们的行为而形成的系统。组件之间彼此进行交互以实现一个共同的目标。

推荐文章
暂无评论
暂无评论~