作者:四月

阿里发布首颗量产AI「超大芯片」:高出兄弟公司新品四倍,上云就能用

「这是互联网公司的首颗『大芯片』」,达摩院院长张建锋为其写下注脚。所谓「大芯片」,是指单靠一颗含光 800 NPU,能够在一秒内处理 7.8 万张图片。

含光,上古三剑之首,「吾有三剑,惟子所择。一曰含光,视不可见,运之不知其所触,泯然无际,经物而物不觉。」

继玄铁、无剑的刀光剑影之后,阿里的「含光」更多了几分道家的玄妙之意。

9 月 25 日机器之心消息,阿里杭州云栖大会现场,阿里首颗云端超大型 AI 推理芯片含光 800 正式发布。基于含光 800 的 AI 云服务也于当天正式上线,相比传统 GPU 算力,性价比提升 100%。

所谓「玄妙」,在于这是一颗集阿里巴巴算法(Algorithm)、大数据(Big Data)、算力(Computing)、应用场景(Domain)、生态体系(Ecosystem)五大优势之大成的云端芯片。

「这不单纯是芯片团队的工作」,阿里平头哥首席科学家、阿里高级研究员元尊向机器之心说道,「达摩院提前做了很多算法调研为芯片集成提供深刻理解;城市大脑、拍立淘等团队积累的丰富数据为芯片加速测试和优化,以及应用场景的方案经验的深厚积累都为含光高效而稳健的落地提供了保障」。

基于阿里生态独有的 AI 技术与业务优势,平头哥团队将含光 800 从研发到成功流片的时间精准地控制在 10 个月内,几乎创下了半导体设计制造行业的记录。

目前,该颗芯片已经部署在阿里云平台,供阿里内部的多个视觉业务场景大规模使用,未来还将应用到医疗影像、自动驾驶等广阔场景。

此前,阿里已经推出高性能自主处理器 IP 玄铁和一站式芯片设计平台无剑,面向广大芯片主加速其芯片产业落地。

张建锋说:「在全球芯片领域,阿里巴巴是一个新人,玄铁和含光 800 是平头哥的万里长征第一步,我们还有很长的路要走。」

今天,含光一出,为阿里云业务和算力竞争力带来质的提升——它是阿里真正意义上首颗完成量产以及部署运行的芯片,同时将依托于亚太第一的阿里云计算平台向全球用户直接输出其强大算力。

01 以一当十, 将推理性能推到极致

在云栖大会上谈起朋克少年平头哥,显得格外亲切。

一年前的云栖大会现场,平头哥半导体有限公司在这里面世,它是阿里旗下一家独立的芯片企业,吸收了国内唯一具备 CPU 知识产权和量产经验的芯片公司中天微,与阿里的 AI 技术综合平台达摩院联系密切。

周岁之际,平头哥带来了首颗云端 AI 芯片含光 800,「这同时也是互联网公司的首颗『大芯片』」,达摩院院长张建锋为其写下注脚。

所谓「大芯片」,是指单靠一颗含光 800NPU,能够在一秒内处理 7.8 万张图片。

含光 800 主要用于云端视觉处理场景,性能打破了现有 AI 芯片记录。据阿里数据显示,性能及能效比全球第一,在芯片测试标准平台 ResNet-50 上的具体分数为:

性能 78563 IPS(Image Per Second),是第二名高 4 倍;

能效比 500 IPS/W,是第二名(150)3.3 倍。

张建锋现场展示了该颗芯片和业界典型算力「怪兽」的对比,其中包括两款 AI 芯片、两款 GPU 芯片,但并未点名其芯片品牌和型号。不过,张建锋补充道,「这是我们的兄弟公司,前不久刚开发完发布会」。

对比英伟达官网 Tesla V100 计算卡的公开数据,针对 ResNet50 模型一秒能够处理图片(推理)的数量为 7830images/sec,这个数字相当于目前含光 800 的十分之一。

在杭州城市大脑的业务实测中,1 颗含光 800 的算力相当于 10 颗 GPU。

换句话说,阿里的含光 800 将云上的推理性能推到了极致。

作为一名后来者居上的非传统芯片挑战者,阿里平头哥团队除了充分发挥出硬件层面的深厚积淀,还针对配套的软件栈和开发工具做了巨大投入,以撼动英伟达在云上的强大生态。目前,阿里具备完全自主能力的包括自研的芯片架构、软件编译器、框架、工具链等。

在深度学习开发工具和支持方面,阿里从 2015 年起就开始打造人工智能学习平台 PAI,涵盖多种训练和计算加速工具,强调大规模分布式计算的能力优势,目前已经迭代到第三代。

针对针对广告、搜索、推荐等典型数据处理场景,阿里自研了新一代工业级分布式深度学习框架——XDL,主打高维稀疏数据的性能优化,为 AI 算力的软硬一体化战略落地提供了优异的先天条件。

与此同时,含光 800 针对 INT8 数据类型做了大量优化,最终在性能、良率、功耗等指标上均表现良好。

「相较于训练,目前推理才是云上更大的核心业务需求」。据平头哥算法负责人星瞳表示,无论是在线还是离线的业务需求都是基于推理来完成,比如常见的检测、分类、分割、识别等运算。

02 突破传统 ASIC 局限

含光定位于一款 ASIC 架构的 NPU 专用加速器,ASIC 意味着针对某种特定的需求而专门定制,NPU 则将方向瞄准深度学习领域的神经网络加速 (Natural Processing Unit)。

基于冯诺依曼结构的传统通用处理器,比如常见的 x86 CPU、GPU,它们采用分离的存储和运算处理单元设计,面向大量的深度神经网络计算任务时,需要大量读写运行操作,受限于带宽限制,效率较为低下。

ASIC 芯片能够特定场景和算法进行定制,意味着执行特定算法时能获得最高的效率和性能。

以含光 800 为代表的神经网络芯片,根据神经网络推理运算特征,设计特定的硬件神经元、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。

基于这一思路,市面上的神经网络加速芯片层出不穷,形成了百家争鸣的盛况。但我们同时也应用看到专用和定制的反面,常见的 ASIC 通常在场景的迁移性和算法通用性方面大打折扣,通常只会在十分明确的算法场景下表现优异。

将目光聚焦在阿里的含光 800,似乎走了一条不太寻常的 ASIC 之路。

它不仅实现了同时兼容海量的图像搜索、城市大脑领域的视频识别、智慧医疗领域的医疗影像识别、网页设计领域的图像生成等不同计算需求环境,还针对这些丰富的场景挖掘出了极大的计算优化潜能。

根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要 40 颗传统 GPU,延时为 300ms,使用含光 800 仅需 4 颗,延时降至 150ms。

拍立淘商品库每天新增 10 亿商品图片,使用传统 GPU 算力识别需要 1 小时,使用含光 800 后可缩减至 5 分钟。

平头哥算法负责人星瞳向机器之心解释了背后的优化机制:

虽然上述业务看起来比较多样化,但在视觉领域的计算多由若干典型计算架构构成,上升到骨干网络上的差异性比较小,所以尽管定位于一款 ASIC 芯片仍强调一定的通用性,保证兼容常见的深度学习算法和框架,

与此同时,针对具体的行业应用,还需要阿里达摩院的算法人员针对不同场景进一步优化。星瞳向机器之心透露,这是含光 800 算力针对性提升的关键,比如套用风格迁移的思路,加速算法的移植和优化。

整体来看,这些应用和算法加速的基础主要脱胎于阿里数字经济体内部以及阿里云外部的业务实践,进一步凸显出阿里打造芯片生态的独特思路。

值得注意的是,平头哥用最短的时间完成了芯片的设计、流片整个过程,7 个月完成前端设计,之后仅了 3 个月就成功流片。

芯片设计是一个复杂的系统工程,单纯完成设计并不意味着就可以流片成功,这是行业的深水区,假如流片失败,就意味着硬件设计需要推倒重来,这比软件出 BUG 问题更加严重。一般芯片公司需要做两次(engineering sample、production sample)或多次才能流片成功。

而流片成功后也不代表就可以直接商用了,它还需要经过复杂的测试验证,在各项指标都符合实际场景需求后才到了真正的商用阶段。

需要说明的是,含光 800 已经完成了整个过程,应用于阿里巴巴集团内部各大场景,这背后主要得益于阿里软硬件的深厚积累,以及丰富的验证场景。

平头哥研发芯片并非从 0 开始,在阿里达摩院的算法以及阿里巴巴集团硬件基础设施多年技术沉淀之上,含光 800 重构了芯片的软硬件技术栈。

含光 800 性能的突破得益于软硬件的协同创新:芯片架构设计采用稀疏、量化等推理加速技术,以及密集压缩的计算、存储、流水线技术,有效解决芯片性能瓶颈问题;该芯片还集成了达摩院算法,深度优化 CNN 网络及视觉 DNN 模型,提升视觉计算效率。

算法方面,阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并且取得多个世界领先水平的成果;硬件方面,阿里巴巴此前已在服务器、FPGA 以及存储等领域拥有多年研发经验,此外,平头哥团队在体系结构、编译技术等领域拥有深厚的技术储备。

基于这些能力,平头哥突破了算法和硬件之间的鸿沟,基于阿里巴巴丰富的场景和达摩院算法能力,自研芯片架构,并且设计了完整软件栈。

这样的设计理念效果立竿见影,例如功耗是人工智能芯片行业通病,平头哥自研架构可大幅减少对内存的访问,在保证极致性能的情况下,把芯片功耗降到最低水平。

03 不「卖」芯片,「卖」什么

和绝大多数芯片商不同的是,平头哥的目的并非卖芯片,换句话说,含光 800 主要通过 AI 云服务提供算力,不会单独出售芯片产品。

含光 800 的算力也不仅仅满足阿里巴巴集团内部场景的需求,还会通过阿里云对外输出,帮助企业用更低的成本获取高性能算力,加速业务创新,例如,对于受限于算力瓶颈的企业而言,含光 800 可以更高效地运行更复杂、更先进的算法。

在人工智能场景中,含光 800 是异构计算很好地补充,通过阿里云可以为企业提供更多的选择,未来平头哥还会推出更多形态的人工智能芯片,在终端、云数据中心都会有更大规模的部署和应用。

随着含光 800 的发布,平头哥端云一体全栈芯片产品家族雏形已现,实现了芯片设计链路的全覆盖,涵盖处理器 IP 玄铁系列,一站式芯片设计平台无剑 SoC,以及 AI 芯片含光 800:

基础单元处理器 IP,C-Sky 系列、玄铁系列为 AIoT 终端芯片提供高性价比 IP;

一站式芯片设计平台,无剑 SoC 平台集成 CPU、GPU、NPU 等,降低芯片设计门槛

AI 芯片,含光 800 通过 AI 云服务为人工智能场景提供极致算力。

这三大产品系列将构建端云一体的芯片生态,为企业提供普惠算力。

未来,产品形态还会进一步完善,例如云上 AI 训练芯片和端上的 AI 推理芯片,目前平头哥还在研发用于阿里云神龙服务器的 SoC 专用芯片,以满足更多场景的算力需求。

在端侧,平头哥致力于做普惠芯片,无剑 SoC 平台和玄铁处理器 IP 来帮助企业降低芯片设计门槛;在云上,含光 800 通过阿里云 AI 云服务的形式让企业随时随地可以享受高性能计算服务。

平头哥副总裁孟建熠在接受机器之心采访时表示,平头哥后续将进一步深化和放大云端协同的优势,比如终端采用平头哥的 IoT 芯片意味着在阿里物联网系统 AliOS 下能够得到最优异的表现,同时更容易、更便捷接入阿里云生态和算力;相应地,阿里云上的超大推理算力也更容易赋能到各种搭载了 AliOS 系统的终端设备。

平头哥延续了母体阿里巴巴集团「让天下没有难做生意」的愿景,开辟了全新的商业模式(平头哥模式),致力于为企业提供普惠算力,目前已经拥有全栈芯片产品家族,涵盖终端处理器 IP、终端芯片设计平台 SoC、云端 AI 芯片。

依托于阿里经济体丰富的场景为研发人工智能芯片提供了绝佳平台,这是平头哥的天然优势。依托阿里巴巴集团丰富的应用场景,平头哥早期就针对场景做了大量优化,因此实现了性能上的突破。

在这次云栖大会现场,首批搭载平头哥玄铁处理器或基于平头哥无剑平台设计的芯片产品已经基本落地,分别来自业界七家芯片企业,包括清华背景的清微智能(Thinker)、云天励飞、炬芯、奉加微(通信芯片)、联盛德微、艾派克、博雅鸿图等客户)。

此外,平头哥正在打造完善的行业生态和开发者生态。

在云端,全球前三、亚太第一的阿里云为平头哥服务企业提供了绝佳平台,未来企业可以通过阿里云轻松获取含光 800 的极致算力。

含光 NPU 已经大规模应用于内部场景,未来企业可以在阿里云上获取其极致算力。端云一体芯片是平头哥的主要方向,终端玄铁处理器可以与云端含光芯片协同。

在端侧,平头哥已拥有成熟的生态体系,CK801、CK802、CK803、CK805、CK807、CK810、CK860 等 7 款自研嵌入式 CPU IP 核均已得到大规模量产的验证,授权客户超 100 家,累计销售超十亿颗,广泛应用于机器视觉、工业控制、车载终端、移动通信和信息安全等领域。

除此之外,基于 RISC-V 架构的玄铁处理器以及无剑 SoC 平台也已服务各行业企业,例如人工智能企业云天励飞、老牌芯片商炬芯科技等。

另一方面,平头哥还将成立芯片开放社区,进一步为芯片产业提供开放协作的平台。

04 平头哥的「RoadMap」

采访过程中,阿里方面并没有透露平头哥的芯片规划矩阵,但透过一些信息梳理,我们或许得以看见平头哥更远的未来。

目前,阿里已经完成了云端两大阵线上的初步布局,端上做芯片基础设施,云端为企业提供普惠算力。处理器是所有高端系统芯片都需要的产品,它是最核心的基础设施产品,AI 芯片是人工智能场景最高效的算力单元,阿里将投入重金打造好这些技术,同时构建应用生态。

后续阿里还将进一步深化这两大产品线。据阿里平头哥首席科学家、阿里高级研究员元尊向机器之心表示,在推理芯片之外,阿里已经将训练芯片设在日程上。

而在终端,早在上个月的 HOTCHIPS 会议上,阿里巴巴就发布了新一代 AI 语音 FPGA 芯片技术--Ouroboros。这是业界首款专为语音合成算法设计的 AI FPGA 芯片结构,可将语音生成算法的计算效率提高 100 多倍。据悉,该款芯片将率先落地在阿里智能音箱天猫精灵上。

而在这两大产品线之外,阿里还将延伸出一条全新的面向云端的 SoC 产品矩阵,将用于新一代阿里云神龙服务器的核心组件 MOC 卡,推动云计算技术升级。

阿里云神龙服务器 (X-Dragon Cloud Server) 出自达摩院,是一种可水平弹性伸缩的高性能计算服务,融合了物理机与云服务器的各自优势,能实现超强、超稳的计算能力,并有自主研发的虚拟化 2.0 技术。

此外,平头哥还将继续开发操作系统,软硬件融合的算法,核心的 IP 等。把这些共性的技术能够做好做精做出竞争力,并形成生态,然后开放给我们的芯片设计产品,让他们基于高质量的基础设施打造芯片产品,有助于提升整体的产业竞争力。

芯片、AI 和云计算之间相互融合、协调发展是大势所趋,阿里巴巴坚持芯片、AI 和云计算三位一体、协同发展:人工智能算法逐渐集成到芯片,集成算法的专用芯片为云服务提供了更强的性能,而云计算本身则加速了人工智能应用的大规模落地。

过去十年,阿里巴巴的 AI 和云计算齐头并进,在这两大领域,已经跻身全球前列。

作为业界最大的人工智能应用者之一,阿里巴巴拥有丰富的应用场景,在此之上达摩院已建成完善的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并取得多个世界领先水平的成果,在国际顶级学术会议上共发表了近 400 篇顶级论文;阿里云稳居全球云计算厂商前三、亚太第一的位置,超过一半的中国 A 股上市公司和 80% 中国科技类企业在使用阿里云的服务。

平头哥则得到了达摩院和阿里云的软实力加持,例如基于达摩院的算法能力,打破了算法和硬件之间的鸿沟;基于阿里云飞天云平台的优势,快速形成了端云一体芯片生态,玄铁系列处理器以及无剑平台大幅降低终端芯片设计的门槛,含光 800 通过阿里云输出给全社会,让企业随时随地可以享受到极致算力。

总体来说,芯片是计算力的核心。计算力是所有互联网应用的基础。研发芯片可以降低阿里巴巴经济体整体计算的成本,还可以以云服务的方式交付,以更高的性能和更低的成本赋能更多的企业。

产业AI 芯片阿里巴巴
1
相关数据
图像搜索技术

图像搜索是通过搜索图像文本或者视觉特征,为用户提供互联网上相关图像资料检索服务的专业搜索引擎系统,是搜索引擎的一种细分。图像搜索方法一般有两种:通过输入与图片名称或内容相似的关键字来进行检索;或者通过上传与搜索结果相似的图片或图片URL进行搜索。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
推荐文章
暂无评论
暂无评论~