解析UCloud人工智能与英特尔背后的技术故事「上」

“企业要构建自己的AI在线服务系统并非易事,无论是IT基础设施的建设还是AI 框架的部署,都需要耗费大量人力、物力。如果在IT系统、AI框架上选择失误,则会前功尽弃,这给AI项目的发展和普及制造了很高的门槛。我们的目标是帮助用户像使用云主机、云存储这些成熟的云产品一样使用AI在线服务。通过充分利用英特尔®至强®处理器E5产品家族的高可扩展性及英特尔®AVX,我们的UAI-Service正逐渐走近这一目标。”

人工智能Artificial Intelligence,AI)如火如荼的今天,很多初创企业和传统企业都选择以AI为契机开拓市场,但同时也面临着缺乏高效部署AI能力的难题。为此,UCloud基于英特尔®至强®服务器平台,充分发掘和利用英特尔®高级矢量扩展(英特尔®AVX)指令集相关处理单元的潜能,推出了UCloud AI 在线服务(UCloud AI online Service,UAI-Service*),其具备的大规模分布式计算平台可以满足企业在图像识别、自然语言处理等多个AI领域的在线服务应用需求。

面临挑战

企业的AI之路并非坦途大道:无论是初创企业踏上AI创新之旅,还是传统企业希冀借助AI之力调转航向,实现转型或升级,AI系统的设计、部署和运维都需要巨大、多维度的投入且困难重重,在决策选型过程中稍有不慎,都会带来巨大的沉没成本,令许多企业望而生畏。

AI的高成本正侵蚀企业的总拥有成本(Total Cost of Ownership, TCO ):AI能力提升的背后,可能会给企业带来巨大的成本开支,如何在性能和成本之间达到平衡?这一问题让许多企业决策者感到苦恼。

解决方案

UCloud UAI-Service:面向初创企业、传统企业AI转型而生的UCloud UAI-Service,旨在提供易部署、易运维、更安全以及多AI框架支持的AI在线服务节点,可助力企业完成AI模型部署这一关键环节,并在图像识别、机器学习等多个AI领域满足企业用户的需求。

英特尔®至强®处理器E5产品家族及英特尔®AVX:通过与英特尔的紧密技术合作,UAI-Service一方面巧妙地利用云主机中英特尔®至强®处理器E5产品家族的空闲处理能力,将其英特尔®AVX能力用于支持和加速AI在线服务;另一方面,利用该处理器产品家族强大的可扩展性进行弹性部署,用低成本获得高性能,降低用户的TCO。

成果

真正推动AI技术的普及,助其持续发展:UCloud推出的UAI-Service将身处技术“深闺”中的AI技术和应用进一步平民化、实体化。通过PaaS的方式,让更多有志于在AI领域开拓进取的企业能够获取出色的AI部署能力,进而让整个AI产业实现“小步快跑”的前进节奏。

更有效利用空闲计算资源、节约用户成本支出:UAI-Service创新地利用英特尔®至强®处理器E5产品家族的空闲处理能力,是对空闲计算资源再利用的有效尝试,其成功实践令成千上万的数据中心处理器的空闲能力得以充分利用。这既降低了企业用户的TCO,也达到了环保节能的效果。

横空出世的AlphaGo,让AI成为近两年来人们持续关注的热点。而AI也正在走出象牙塔,走近普通企业和大众,并开始在经济和民生层面扮演起越来越重要的角色。从机器学习模式识别自动驾驶、机器视觉,不但众多初创企业将AI研发作为扬帆起航的契机,许多传统企业也将其作为自身转型升级所必备的利器。

但AI系统的建设并非易事,企业AI系统的建设可分为“数据收集”、“模型训练”及“模型部署”三个步骤,每个步骤都会带来复杂的IT系统建设及运维工作。随着各类大数据云计算技术方案的日趋成熟,“数据收集”和“模型训练”的工作正逐渐转移到云上,形成了成熟的云化方案,而AI模型部署的云化还存在许多问题:一方面,多种多样的AI框架需要企业制订和执行不同的部署策略,难免因此产生高昂的运营成本;另一方面,主要用于模型训练的GPU平台在模型部署中不仅部署成本较高,而且在扩展性上的表现也不够理想。

UCloud推动的UAI-Service,就是针对上述AI模型部署难题而生的创新方案。UCloud的工程师们创造性地利用了虚拟云主机上英特尔®至强®处理器E5产品家族的空闲计算资源,借助英特尔®AVX的能力,来提供专注于AI模型部署的AI在线服务。英特尔®至强®处理器强大的可扩展性也帮助UAI-Service获得了快速便捷部署的能力,并显著降低了企业运行AI在线服务的成本支出。

让使用AI服务像使用云主机一样便捷

“简单来讲,AI的三部曲可以分为大数据收集,AI模型训练和AI在线服务。”UCloud创新产品线总监叶理灯这样描述企业AI系统建设,“此前,针对前两步,UCloud都已经为用户提供了成熟的云主机、云存储、云网络等解决方案。”

但三部曲的最后乐章,却还面临诸多问题。一方面,企业用户在基于AI进行业务创新时,常常面临众多的业务流程,如何将不同的业务流程与AI在线服务一一映射,这对AI在线服务的部署、可管理性及可扩展性提出了巨大的挑战;另一方面,面对众多的AI框架,企业运维人员总有无从着手的烦恼,因为他们需要为各个框架开发和配置不同的接口,工作量巨大。为解决AI系统建设这“最后一公里”的问题,UCloud提供了UAI-Service,它能基于大规模分布式计算平台为用户提供AI在线服务。

在实际任务部署中,UAI-Service为用户提供了“两步走”的部署模式。首先,向用户提供SDK工具包,内含接口代码框架、代码和数据打包模板以及第三方依赖库描述模板。用户只需根据SDK工具包内的代码框架编写接口代码,准备好相关代码和AI模型以及第三方库列表,就可以通过打包工具一键完成任务的在线部署。

任务打包完毕后,用户可以通过UAI-Service分布式的AI在线服务PaaS平台进行后续管理和维护。该平台可以同时管理上千个计算节点,每个计算节点都是同构节点,具有相等的计算能力,并拥有自动请求负载均衡、自动资源管理的功能。用户只需要将业务部署在平台上,就无须操心其后续的运维。

“UAI-Service给用户带来的最大优势,就是省去了部署AI在线服务时的大量繁琐工作,让用户可以将宝贵的资源聚焦在自身的业务上。”在UCloud叶理灯看来,如果每一个企业用户在部署自己的AI服务时,都需要通盘考虑容灾、安全性、资源调度或者负载均衡,那么企业在人力资源和成本上的支出将是沉重不堪的。

UAI-Service将这些工作都内化为SDK包和PaaS平台服务,用户只需要像使用云主机或者云存储服务那样,轻松将所需的功能或服务配置在一起就可以使用,而且UAI-Service还可以自动将分布式部署的四大要素——负载均衡、自动扩容、分布式容灾以及海量计算资源进行有效配置。

在下一篇中,我们将继续介绍UAI-Service平台的另一优势,以及UAI-Service如何借力英特尔技术以发挥其更强的AI能力等方面的技术解读。

分享UCloud的技术创新、架构设计、实践总结,内容同步于微信公众号“UCloud技术公告牌”

https://www.ucloud.cn/
专栏二维码
产业英特尔UCloud分布式计算NLP大数据机器学习模式识别自动驾驶
2
相关数据
人工智能技术
Artificial Intelligence

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

阿尔法围棋技术
AlphaGo

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

大数据技术
Big data

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

分布式计算技术
Distributed computing

在计算机科学中,分布式计算,又译为分散式運算。这个研究领域,主要研究分布式系统如何进行计算。分布式系统是一组电脑,通过网络相互链接传递消息与通信后并协调它们的行为而形成的系统。组件之间彼此进行交互以实现一个共同的目标。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

映射技术
Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

自动驾驶技术
self-driving

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

调度技术
Scheduling

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

英特尔机构
Intel

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

涉及领域
模式识别技术
Pattern Recognition

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

云计算技术
Cloud Computing

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

推荐文章