Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

华为史上最强芯片昇腾910面世,算力超Tesla V100一倍,AI框架MindSpore明年开源

这是迄今为止华为推出的最强芯片。刚刚,华为在深圳宣布其自研的 AI 训练芯片「昇腾 910」正式上线。与此同时,一同推出的还有华为全场景 AI 计算框架 MindSpore。

华为表示,全新的人工智能芯片「昇腾 910」主要面向 AI 数据科学家和工程师,其算力已达到全球领先水平,远超谷歌的 TPU v3 和英伟达最新的 GPU Tesla V100。配合 MindSpore 开源框架,华为一次满足了终端、边缘计算、云全场景需求,让芯片的强大算力能够以最高效的方式被人们利用。

昇腾 910 也是华为「达芬奇架构」最大的一款芯片。去年 10 月,华为在全联接大会(HC)上宣布了达芬奇计划,其中用于人工智能训练的昇腾 910 芯片格外引人注目。它被认为是全球单芯片计算密度最大的 AI 芯片。今天,华为在深圳的发布让我们终于能够和它见面,人们可以在华为云服务中使用这些芯片了。

华为公司轮值董事长徐直军表示,「华为自 2018 年 10 月发布 AI 战略以来,稳步而有序地推进战略执行、产品研发及商用进程。昇腾 910、MindSpore 的推出,标志着华为已完成全栈全场景 AI 解决方案的构建,也标志着华为 AI 战略的执行进入了新的阶段。」

华为首款 AI 训练芯片昇腾 910

面向服务器的芯片昇腾(Ascend)910 采用 7nm 制程,而设计功耗为 310W,其算力比英伟达 Tesla V100 还要高出一倍,半精度(FP16)达到了 256 TeraFLOPS(英伟达 Tesla V100 为 125),整数精度算力(INT8)则为 512TeraOPS。在这块芯片上,华为还加入了 128 通道全高清视频解码器。此外,华为表示,昇腾 910 达到规格算力所需功耗仅 310W,明显低于设计规格的 350W。

图:昇腾910与谷歌TPU、英伟达v100对比

徐直军表示:「昇腾 910 完全达到了设计规格,在同等功耗下拥有的算力资源,达到了业内最佳水平的两倍。它已经应用在实际的服务中,比如在典型的 ResNet50 网络的训练中,昇腾 910 与 MindSpore 配合,与现有主流训练单卡配合 TensorFlow 相比,显示出接近 2 倍的性能提升,每秒处理的图片数量从 965 张提升到了 1802 张。」

在发布芯片的同时,华为还推出了大规模分布式训练系统 Ascend 集群,在设计中,该集群将包括 1024 个 Asced 910 芯片,算力达到 256P,大幅超过英伟达 DGX2 和谷歌 TPU 集群。

一次开发,全面部署:MindSpore

强大的硬件也需要 AI 开发框架才能释放全部潜能,MindSpore 是华为提出的全场景 AI 框架,与 TensorFlow、PyTorch、PaddlePaddle 等框架并列。

未来的 AI 应用由任务驱动,在不同场景中机器学习模型的部署方式不同;另一方面,随着技术的快速发展,新方法引出的安全问题和算力瓶颈成为了人们面临的重要挑战。

MindSpore 是一款支持端、边、云独立的和协同的统一训练和推理框架。华为希望通过这款完整的软件堆栈,实现一次性算子开发、一致的开发和调试体验,以此帮助开发者实现一次性开发,应用在所有设备端、边缘及云端平滑迁移的能力。

「MindSpore 框架支持从大到小的所有设备,同时也支持本地的 AI 计算,从而实现隐私保护,」徐直军表示。「这种框架传递给云端的数据可以是处理后的、不带有隐私信息的梯度、模型信息,而非数据本身,以此实现在保证用户隐私数据保护的前提下跨场景协同。除了隐私保护,MindSpore 还将模型保护 Built-in 到 AI 框架中,实现模型的安全可信。」

MindSpore 原生适应所有的 AI 应用场景,并能够按需协同的基础上,通过实现 AI 算法即代码,使开发态变得更加友好,显著减少模型开发时间。以一个 NLP(自然语言处理)典型网络为例,相比其他框架,用 MindSpore 可降低核心代码量 20%,开发门槛大大降低,效率整体提升 50% 以上。

MindSpore 和昇腾处理器结合可以显著提高 AI 负载的处理效率,不过即使用户采用常规的 CPU、GPU,这一框架也能提供全面支持。

在这一框架中,算子库 CANN 面向人工智能不断出现的多样性算子,兼顾了高性能和高开发效率。TensorEngine 实现了统一的 DSL 接口、自动算子优化、自动算子生成,以及自动算子调优功能。值得一提的是,华为在 Tensor Engine 中采用了陈天奇等人提出的 TVM。华为称,CANN 可以实现 3 倍的开发效率提升。华为表示,MindSpore 同时也支持目前所有主流深度学习框架中的模型。

在框架之上,华为还为开发者提供了更为高级的 ModelArts,这是一个机器学习 PaaS,提供全流程服务、分层分级 API 及预集成解决方案。去年发布 ModelArts 后,目前的日均训练作业任务超过 4000 个,已经拥有了超过 3 万名开发者。

基于达芬奇架构的统一性,开发者在面对云端、边缘侧、端侧等全场景应用开发时,只需要进行一次算子开发和调试,就可以应用于不同平台,大幅降低了迁移成本。

在发布会上,徐直军还宣布 MindSpore 将在 2020 年的第一季度开源,希望以此助力每一位开发者,促进 AI 产业生态发展。「华为在生态建设上有自己的优势,」徐直军表示。「我们在智能终端上的 HiAI 引擎,可以让所有开发者基于异构计算的算力实现多种智能化服务。通过最强算力和先进框架的结合,我们可以打造很多其他框架做不到的事情。」

随着昇腾处理器和 MindSpore 等产品的推出,华为的全场景 AI 战略已经向我们展现无余。

华为达芬奇计划

华为的达芬奇架构此前已经随着昇腾 310 芯片,和 7 月份刚刚推出的麒麟 810 手机处理器为我们揭开了面纱。华为希望通过这一自研架构的多种处理器,接管未来人工智能场景中的所有计算任务。

在达芬奇架构的处理器中,Da Vinci Core 只是 NPU 的一个部分,Da Vinci Core 内部还细分成很多单元,包括核心的 3D Cube、Vector 向量计算单元、Scalar 标量计算单元等,它们各自负责不同的运算任务实现并行化计算模型,共同保障 AI 计算的高效处理。

其主要结构分为三个部分:

  • 3D Cube 矩阵乘法单元。矩阵乘是 AI 计算的核心,这部分运算由 3D Cube 完成,Buffer L0A、L0B、L0C 则用于存储输入矩阵和输出矩阵数据,负责向 Cube 计算单元输送数据和存放计算结果。

  • 向量计算单元虽然 Cube 的算力很强大,但只能完成矩阵乘运算,还有很多计算类型要依靠 Vector 向量计算单元来完成。Vector 的指令相对来说非常丰富,可以覆盖各种基本的计算类型和许多定制的计算类型。

  • 标量计算单元,主要负责 AI Core 的标量运算,功能上可以看作一个小 CPU,完成整个程序的循环控制,分支判断,Cube、Vector 等指令的地址和参数计算以及基本的算术运算等。

华为称,达芬奇架构适用于从手机端到智能设备,再到服务器端的全部人工智能模型训练场景。在首款采用自研 NPU 的麒麟 810 上,华为已经展现了自己的 AI 芯片研发实力(搭载的手机是华为 Nova5 系列)。今天推出的昇腾 910 芯片是目前采用达芬奇架构最大、算力最强的一款芯片。

华为一直在加强投资基础技术的研究,自 2018 年 10 月发布 AI 战略以来,一直在稳步推进战略执行、产品研发及商用进程。昇腾 910、MindSpore 的推出,标志着华为已完成全栈全场景 AI 解决方案的构建,也标志着华为 AI 战略的执行进入了新的阶段。

昇腾 310 和昇腾 910 仅仅是一个开始,面向未来,华为还将推出更多的面向所有场景的产品。在 2021 年,华为还将推出下一代芯片昇腾 320,在 9 系列和 3 系列之间的昇腾 610 也将在明年推出。

最后,徐直军表示:「在今年的华为全联接大会上,我们还会发布更加震撼的 AI 产品。」此外,华为的下一代旗舰手机处理器麒麟 990 也将在 9 月 6 日与我们见面。

入门昇腾 910MindSpore华为
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

推荐文章
暂无评论
暂无评论~