寒武纪发布机器学习处理器MLU:计划未来三年占领10亿台设备

11 月 6 日下午,寒武纪科技在北京举办了成立以来的首场发布会。在会上,这家知名人工智能芯片公司的创始人陈天石发布了面向视觉领域的寒武纪 1H8、性能更强的寒武纪 1H16,以及面向智能驾驶领域的寒武纪 1M,同时推出了面向开发者的人工智能系统软件 Cambricon NeuWare。最后,陈天石宣布了计划 2018 年推出的机器学习处理器 MLU 系列。

全新的智能处理器 IP

作为国内 AI 芯片的先行者,寒武纪科技的产品早已进入普通用户的手中。10 月 16 日,华为在德国慕尼黑发布了新一代旗舰手机 Mate10 系列,其中搭载了华为海思人工智能芯片麒麟 970。麒麟 970 首次集成了来自中科寒武纪的 NPU(寒武纪 1A 处理器)作为神经网络专用处理单元,同时采用异构计算架构大幅提升了 AI 任务算力。新的计算架构 HiAI 和计算单元对于机器学习任务处理性能(相对于手机 CPU)提升了数十倍,最高可达到传统处理器 25 倍速度,50 倍能效。这种性能提升可以让此前很多无法在移动端使用的机器学习应用走向工程化和实用化。麒麟 970 也成为了全球首款人工智能处理器,这款芯片的出现意味着人工智能技术开始逐渐从理论、工程阶段走向实用化,成为了 AI 产业发展的一个里程碑。

当前的计算机架构中,CPU 负责通用任务计算,面向指令密集和逻辑控制运算;GPU 则是数据密集型,主要面向向量任务的图形处理计算。对于人工智能领域的应用,目前人们面临的主要任务是对于矩阵乘法的运算,这种任务使用 CPU 和 GPU 来做效率并不高。对于一个矩阵乘法,后两种结构需要更多个指令周期来完成。针对这类任务,如果希望能够在最短的时钟周期内完成更多的神经网络模型算子的运算,就需要专门的硬件来参与其中,寒武纪科技提出的 NPU 就是一种前沿方向。

寒武纪科技的产品路线图覆盖终端产品和服务器,在 NPU 实用化之前,该公司在 2016 年推出了寒武纪 1A 处理器(Cambricon-1A),它也成为了全球首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等终端设备,在运行主流智能算法时性能功耗效率大幅超越 CPU 和 GPU。

在发布会上,寒武纪第一次展示了 1A 处理器的全部性能

陈天石表示,「虽然 1A 诞生于 2016 年,但是在今天它仍然是市场上最为强大的神经网络处理器。它支持从上古时代的模型,到现代最新的模型。支持稀疏化神经网络,到半精度处理。」

另外,中科曙光近日宣布推出国内首款搭载寒武纪 AI 芯片的人工智能服务器「Phaneron」。「Phaneron 主要面向深度学习的在线推理业务环境。在线推理业务不同于离线训练,推理不需要密集的计算能力,而是需要及时响应。因此,完成推理服务,需要大量的部署前端加速芯片以实时响应访问请求,对数据迅速作出判断,」中科曙光副总裁沙超群在此前服务器的发布中对此介绍道,「Phaneron 可以在 4U 空间中部署 20 个人工智能前端推理模块,能够为推理提供强大的计算支持。」

在发布会上,陈天石还展示了目前寒武纪的最新智能处理器系列:性能全面超越 1A 的寒武纪 1H16、面向视觉领域的寒武纪 1H8,以及面向智能驾驶领域的寒武纪 1M。「我们希望在不远的将来,国内的智能汽车能够全部用上国产的 AI 处理芯片。」陈天石表示。

寒武纪 1H8

寒武纪 1H16

寒武纪 1M 处理器

寒武纪软件平台 Cambricon Neuware

为了让广大开发者更快获得 AI 智能芯片的计算能力,寒武纪科技开发了完整的软件平台。目前,寒武纪软件栈已经支持 TensorFlow、Caffe 和 MXNet 等深度学习框架。「在未来,寒武纪平台还将推出安卓和苹果系统的软件 API,」陈天石表示,「所有软件层次的研究开发都是由寒武纪自己完成的。」

寒武纪软件栈

寒武纪软件栈兼容主流深度学习框架,允许我们在其上开发稀疏和量化模型。并在其上直接生成寒武纪模型,通过 AI 芯片处理获得更高效率。这款工具目前已支持原生 TensorFlow。

寒武纪软件栈中包含了大量面向开发者的实用工具,「在寒武纪调优工具包上,我们可以给出模型,让系统自动预测优化前后的性能。」陈天石介绍道。

重磅发布机器学习处理器 MLU 系列

寒武纪最为我们所熟知的产品就是神经网络处理器 NPU。但寒武纪的产品线不仅于此,在今天的发布会上,陈天石重磅发布了寒武纪机器学习处理器 MLU 系列,希望将自己的产品从神经网络加速拓展到机器学习,以及更多任务中。新的处理器产品将在未来 18 个月内推出。

陈天石表示,MLU 100 与 MLU 200 高性能芯片都将支持多种机器学习推理和训练任务的加速,前者偏重推理,后者偏重训练。此外,MLU 100 面向中小型服务器,而 MLU200 则面向企业级人工智能研发中心。

今年 8 月份,寒武纪科技获得了价值 1 亿美元的 A 轮融资,该轮投资由国投创业领投,阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点(天使轮领投方)、涌铧投资(天使轮投资方)联合投资。在本轮融资过后,这家背靠中科院计算所的创业公司估值已接近 10 亿美元,成为了全球第一家智能芯片领域独角兽公司。

未来,寒武纪科技还将继续与华为、中科曙光等公司合作,进一步开发搭载人工智能专用芯片的计算基础设施,在终端与服务器端共同发展,为人工智能产业提供更强大的算力支持。「我们希望寒武纪能在 3 年后占据中国高性能智能芯片市场 30% 的份额;在 3 年后,让全球有 10 亿台设备集成寒武纪处理器的智能终端。我们现在与国外同行都是在同一个起跑线上的,」陈天石表示,「我们应该携起手来共同塑造中国智能产业全新的生态。」

入门寒武纪产业硬件芯片创业公司