寒武纪vMLU技术面世,首推SR-IOV虚拟化功能

2020 年 4 月,国内 AI 芯片独角兽寒武纪对外宣布,旗下云端智能芯片及加速卡系列思元 270 将正式基于寒武纪虚拟 MLU(vMLU)技术,首次支持 SR-IOV 功能。



据了解,SR-IOV 功能具备更好的租户隔离、应用热迁移特性,可为云服务供应商提供安全、优质的 AI 计算资源,以充分保障用户在 AI 领域的投资。思元 270 是寒武纪首款支持 SR-IOV 虚拟化功能的云端智能芯片产品。据悉,寒武纪未来的云端智能芯片,都会支持 SR-IOV 功能。

瞄准用户痛点:如何高效利用 AI 计算资源 

思元 270 是寒武纪推出的面向云端的智能芯片,其支持全面的 AI 推断场景部署,包括视觉、语音、自然语言处理等多样化的人工智能应用。思元 270 系列支撑数据中心、专业场景乃至桌面等多元化部署场景。

在这些部署场景中,面向云端部署、多样化人工智能推断、以及配合寒武纪边缘侧板卡进行应用开发时,如何对 AI 计算资源的有效利用是用户首要关心的问题。也是寒武纪本次推出 SR-IOV 虚拟化功能的核心诉求:

  • 面向云端部署:在云部署环境下,云服务提供商 (CSP) 帮助海量租户以高性价比、高可用性的方式提供计算、存储、网络资源的服务,在此基础上还可提供高达 99.99% 的高可用服务级别。从 Hypervisor 和底层硬件上对资源进行高效共享以及多租户、实例进行相互隔离,成为了 AI 云服务的基本诉求。

  • 面向复杂的人工智能推断:在 AI 应用进行部署时,用户通常会遇到业务逻辑较为复杂的场景,需借助多个网络模型来构建 AI 辅助决策系统。为保证服务器节点内的服务质量,通常会采用一机多卡的部署方式。但计算成本和服务质量需要兼顾时,用户会希望用单张板卡并行多个模型来解决问题。

  • 面向边缘、端侧应用开发寒武纪产品线已在云、边、端三个维度实现全面覆盖,在面向边缘侧和端侧的应用开发过程中,用户经常会受部署侧的 CPU、产品形态或网络条件的限制,无法直接在最终部署的设备上进行开发。寒武纪支持采用端云一体的开发环境帮助用户快速将应用落地,而帮助云侧计算资源高效、合理的分配给应用开发组,是思元 270 虚拟 MLU 的开发目标之一。


寒武纪首推 SR-IOV 功能:让 AI 云、业务部署和应用开发更灵活、高效、安全

为实现以上诉求,思元 270 采用寒武纪虚拟化技术——vMLU,该虚拟化技术允许多个操作系统和应用程序共存于一个物理计算平台上,共享同一个芯片的计算资源。它为用户提供良好的安全性和隔离性,还支持如热迁移等高灵活特性。vMLU 帮助提高云计算密度,也使数据中心的 IT 资产管理更灵活。

除了虚拟化基本的资源共享特性,思元 270 首推的 SR-IOV 虚拟化技术,支持运行在云服务器上的多个实例直接共享智能芯片的硬件资源。传统虚拟化系统中大量的资源和时间损耗在 Hypervisor 或 VMM 软件层面,PCIe 设备的性能优势无法彻底发挥。而 SR-IOV 的价值在于消除这一软件瓶颈,助力多个虚拟机实现高效物理资源共享。

与传统图形加速卡的 vGPU 所采用的虚拟化技术不同,思元 270 采用「非基于时间片的共享」方式,因为其没有因时间片切换上下文带来的性能损失,能充分保证各 VF 独立的服务质量,彼此完全独立运行互不影响。

硬件环境:: 1x MLU270-S4, Xeon Gold 6140@ 2.30GHz, 测试环境:Cambricon-MLU270 1.2.5,操作系统:Centos7.6
SDK 版本:Cambricon Neuware-mlu270-1.2.5 + neuware-mlu270-driver-4.1.0,框架:Caffe

另外,SR-IOV 还可以避免因分时复用切换应用带来的性能开销。如上图显示,vMLU 搭配 Docker 或 VM 运行时,单个 VF 业务性能保持在硬件性能的 91% 以上。这使得用户在多模型并行时,对各 VF 可以做出更准确的服务质量 (QoS) 预期,而不必考虑多模型时的拥塞或切换带来的性能开销。

基于 SR-IOV 的 vMLU:更好的租户隔离性

虚拟化技术被数据中心广泛采用,除了因为其提供了对资源共享的能力(提供了更好的密度性能),也因为相对于其它技术 (如 docker), 虚拟化提供了更好的隔离性和安全性。寒武纪 vMLU 基于 SR-IOV 的虚拟化技术可以帮助云用户实现更好的隔离特性,具体优势如下:

首先,资源独立,互不干扰,能确保服务质量(QoS);其次,多任务时,没有无队列阻塞的烦恼;再次,其具备独立内存资源,各 VF 之间互不可见;最后,它的部署相对简单,不需要对开源软件成分进行修改。

面向 Docker-container 的 SR-IOV flat:更高效部署方式

除了对 VM 提供虚拟化支持,寒武纪虚拟化技术还对 docker-container 提供基于 SR-IOV 的虚拟化扩展 (SR-IOV flat 模式),用于多个 containers 共享一块 MLU 卡的计算能力, 同时,提供了基于 kubernetes 的管理插件。该功能为那些对隔离性和安全性需求没那么高的数据中心提供更轻量级部署方式。

下图对比了在 container 环境中经常被用到的 GPU 弹性共享池技术和 SR-IOV Flat 技术。

Elastic GPUs shared pools vs. SR-IOV flat

从上图可以看出,寒武纪 vMLU 所采用的 SR-IOV-Flat 技术在隔离性, QoS 上都有明显优势。

VF 热迁移 (Live Migration):帮助 AI 云应用达到 99.99% 的高可用服务级别

想要达到 99.99% 的高 QoS,要求云业务的年意外停机时间不超过 53 分钟。热迁移(Live Migration)功能可以在虚机及其应用程序仍在运行时将其移动到另一台主机。AI 计算资源是否具备热迁移能力是评价其在数据中心的群集配置策略、平衡主机的工作负载、容灾处理风方面能力的关键指标。

寒武纪 vMLU 虚拟化技术为思元 270 提供了热迁移的能力, 下图为 MLU 在热迁移发生时芯片内部的数据流图:
 

在热迁移(Live Migration)功能的作用下,AI 算力实现不停机转移,思元 270 可助力 AI 云实现 99.99% 的高服务可用性。

基于寒武纪 vMLU 虚拟化技术,并支持 SR-IOV 功能的寒武纪思元 270 云端智能芯片正式推出,其优质租户隔离、应用热迁移特性,可为云服务提供商提供更加安全、优质的 AI 计算资源。据悉,搭载虚拟化 vMLU 技术的寒武纪思元 270 已经与金山云合作并开始内部部署,预计未来 1 至 2 个月会正式上线,敬请期待。

产业SRAI芯片寒武纪
相关数据
寒武纪机构

寒武纪科技是全球智能芯片领域的先行者,宗旨是打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。公司创始人、首席执行官陈天石教授,在处理器架构和人工智能领域深耕十余年,是国内外学术界享有盛誉的杰出青年科学家,曾获国家自然科学基金委员会“优青”、CCF-Intel青年学者奖、中国计算机学会优秀博士论文奖等荣誉。 团队骨干成员均毕业于国内顶尖高校,具有丰富的芯片设计开发经验和人工智能研究经验,从事相关领域研发的平均时间达七年以上。 寒武纪科技是全球第一个成功流片并拥有成熟产品的智能芯片公司,拥有终端和服务器两条产品线。2016年推出的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越CPU和GPU,与特斯拉增强型自动辅助驾驶、IBM Watson等国内外新兴信息技术的杰出代表同时入选第三届世界互联网大会评选的十五项“世界互联网领先科技成果”。目前公司与智能产业的各大上下游企业建立了良好的合作关系。在人工智能大爆发的前夜,寒武纪科技的光荣使命是引领人类社会从信息时代迈向智能时代,做支撑智能时代的伟大芯片公司。

http://www.cambricon.com
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

金山云机构
推荐文章
暂无评论
暂无评论~