超越英伟达V100,这家以色列公司发布了挑战GPU的AI训练芯片

6 月 17 日,以色列芯片公司 Habana.ai 发布了 Gaudi HL-2000,这是一款定制化 AI 处理器。该公司称,全新的 Gaudi 处理器性能超过了目前在训练神经网络任务中最为强大的英伟达 Tesla V100——而且性能是后者的近四倍。

昨天,在北京举行的人工智能大会(O'Reilly AI Conference)上,Habana 向我们详细介绍了新产品的特性。

Habana Labs 首席商务官 Eitan Medina 在活动中向我们介绍了 Habana 的强大技术。

在这块芯片之上,Habana 也推出了 PCIe 4.0 接口板卡,以及一台 8 处理器的服务器。Habana 表示,这些设备可以成为训练超大规模数据集的基础。

Gaudi 并不是 Habana 在人工智能芯片上的第一次尝试。这家芯片公司成立于 2016 年,在去年 9 月,Habana 曾推出名为 Goya 的人工智能推理芯片,并已拥有很多客户。而在去年 11 月,Habana 完成了价值 7500 万美元的 B 轮融资,英特尔是其领投方。

领先的推理芯片 Goya

去年 9 月,Habana 公司推出的 Goya 人工智能芯片着实吸引了一把眼球。其在 ResNet-50 上,四倍于英伟达 Tesla T4 的处理性能,两倍的能耗比,仅仅 1.01ms 的处理延迟让人们感受了 ASIC 的强大能力。

「我们在 2018 年 9 月发布了推理芯片 Goya,并于年底将产品推向用户。在九个月后的现在,这款产品仍然是在市场上领先的。」Habana Labs 首席商务官 Eitan Medina 表示。

Habana 拿出了英伟达在 GTC 上经常使用的比较方式:与目前最强劲的 GPU 相比,8 块 Tesla V100 的算力相当于 169 个传统 CPU————而相同情况下只需要 3 块 Goya 计算卡就能完成任务。

为何在更小的功耗下,Habana 的芯片有着更强的机器学习算力?答案在于架构。「CPU 和 GPU 的架构是以解决和深度学习完全不同的任务为导向构建的,CPU 面向通用计算,GPU 面向图形处理,」Habana 首席商务官 Eitan Medina 介绍道。「在人工智能方面,GPU 的成功几乎是『偶然』的,因为它具有更高的并行度。然而如果你从零开始,观察神经网络的特性的话,投入足够精力,你就可以获得一个更好的架构。」这就是 Habana 正在做的事。

Goya 是一种采用 PCIe 4.0 接口的计算卡,双槽位,全高全长,可以直接兼容现有服务器的接口,带来更强算力。Habana 表示,目前该公司已经获得了 20 余个客户,这些公司正在评估这种新类型的芯片。

可以「无限扩展」的 AI 训练芯片 Gaudi

人工智能的训练任务需要使用大型数据集,让模型经过前向传播、反向传播不断更新权重,从而让算法展现出「智力」。在训练模型时我们需要着重考虑准确度,同时存在大量数据吞吐及并行化的运算。

而在深度学习的推断/预测时,模型通常只需要使用前向传播,延迟成为了关注的重点。

不同的需求意味着只有使用不同种类的芯片才能在两个方面都实现高效率。目前,人们通常使用 CPU 处理推断任务,GPU 用于训练,英伟达的 GPU 很长一段时间是不分训练和推理的,但现在也有了 Tesla T4 这样专攻推理的芯片。

Habana 很早意识到了这一点,所以其产品线分为推理和训练。

最近推出的 Gaudi 芯片专门用于深度学习模型的训练,采用台积电 16nm 制程。在 ResNet-50 模型的训练中,其每秒可以处理 1650 张图片(batch = 64)。在完整服务器系统条件下的对比中,同为 650 个处理器,Gaudi 的处理能力是英伟达 Tesla V100 的 3.8 倍。

这并不是 Gaudi 唯一的优势,Habana 花费大量时间介绍了其芯片使用以太网互联的优势。「我们认为芯片之间最好的连接方式是 RDMA,它最早只出现在 Infinite Band 中,现在已能用于标准的以太网环境中了。」Medina 表示。

Gaudi 是今天唯一的,可以在芯片里集成 RDMA 的芯片。而且 Gaudi 中集成了 10 个 100GbE 带宽的 RoCE RDMA 以太网端口。这意味着 Habana 的用户可以用常规以太网环境实现扩展。这非常特别,因为其它厂商都在用特殊的连接方式,而 Gaudi 使用的是通用的以太网环境。

相比之下,英伟达的 Tesla V100 只有 1 个 100 Gb RDMA Nic,还需要有 PCIE Switch 进行互连——而 Habana 的产品把网络端口集成在芯片内,可以实现更强的并行化。

并行处理就是在训练过程中把任务分解到每个处理器上,再通过高速网络把运算结果联系到一起。Habana 的芯片通过以太网链接可以实现树状结构的层级化,达到接近完美的吞吐效率。

「DGX-2 的 NVLink 端口扩展性有限,最大支持 16 块 GPU 的并行处理,而 Gaudi 可以支持对外的互联,做到几百块处理器的并行化。」Medina 说道。

在大规模并行运算的情况下,Gaudi 可以实现 Tesla V100 接近四倍的性能。Habana 称,在单卡情况下 Gaudi 的处理速度也有 Tesla V100 的 2.7 倍,而功耗仅为后者的一半。

在 Gaudi 与 Goya 芯片推出之后,Habana 已经拥有了人工智能商业化芯片的完整解决方案。

「从零开始设计芯片」

Habana 的深度学习处理架构被称为 Tensor Processor Core(TPC),而 Goya 芯片中还集成了 GEMM 矩阵乘加单元,这可以让 Goya 处理不同类型的模型。

这家公司的开发者们认为,人工智能芯片要在计算能力和延迟上都表现完美,而以往出现在很多论文中「几分钟训练 ResNet」并不是真正能够应用在生产环境中的方式。

「在 ResNet-50 的训练上,批尺寸这一参数很重要。采用 GPU 训练通常需要很大的 batch size,而 Goya 可以用很小的 batch size 实现高效率训练,在计算时可以让它设置为 1、5 和 10,这样训练延迟也可以很低。」Eitan Medina 表示。

低延迟的体验对于自动驾驶等场景具有优势。而在云计算环境下,目前的 AI 云服务无法对单卡再做虚拟化分配,但 Goya 因为计算的延迟很低,可以把一张 Goya 卡分成 7 个部分分给用户,并保持高效率。这样意味着 Habana 的客户可以进一步提高利润,降低云服务价格。

由于目前的大多数深度学习模型都在 CPU 或 GPU 上完成训练,Habana 为客户提供了一套环境,可以帮助开发者快速部署产品。其软件名为 SynapseAI,支持 ONNX、MXNetTensorFlow、Caffe2、PyTorch 等深度学习框架与模型交换格式。

「如果人们使用其他架构训练模型,将其部署在 Goya 的推理和预测平台上不会有任何问题。」Medina 称。

Habana 正努力帮助构建开源社区,因此也收到了一些回报。去年 facebook 开源的深度学习编译环境 Glow 就首发支持了 Habana 的芯片,此外,Linux 也已集成了 Goya 的驱动。

对于期待使用专用芯片处理人工智能任务的公司来说,Habana 提供的芯片可以带来最大的灵活度。

Habana 的愿景是成为人工智能芯片领域的领导者。这家公司目前已有 150 名员工,其中大多数为研发人员。公司在以色列、波兰两地成立了研究中心,另外在美国加州和中国也设有分支机构。

「训练 AI 模型所需的算力每年都以指数级增长,硬件设备必须满足这种迫切需求,并大幅提高生产力和可扩展性。凭借 Gaudi 的创新架构,Habana 可以带来业界最强的性能,结合标准以太网连接,实现无限的可扩展性,」Habana Labs 首席执行官 David Dahan 表示。「Gaudi 将打破人工智能训练处理器的现状。」

未来,Habana 计划每 9 个月推出一款新产品。明年这家公司即将推出基于 7nm 制程的新一代推理芯片。

产业硬件Habana LabsAI芯片
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

MXNet技术

MXNet是开源的,用来训练部署深层神经网络的深度学习框架。它是可扩展的,允许快速模型训练,并灵活支持多种语言(C ++,Python,Julia,Matlab,JavaScript, Go,R,Scala,Perl,Wolfram语言)

推荐文章
暂无评论
暂无评论~