Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小舟、陈萍作者

7纳米制程、2.6万亿晶体管、比ipad还大,初创公司推「巨无霸」芯片

全球最大芯片出第二代了!WSE 2 将于今年第三季度上市。WSE 2 采用 7 纳米制程工艺,晶体管数达 2.6 万亿个。

近年来大量芯片进入市场,旨在加速人工智能机器学习工作负载。基于不同的机器学习算法,这些芯片通常专注于几个关键领域,但它们大多有一个共同的限制——芯片大小。


两年前,Cerebras 揭开了芯片设计领域的一场革命:他们研发了一款名为 Wafer Scale Engine(WSE)的芯片,拥有 1.2 万亿个晶体管,是英伟达 GPU Titan V 的 57 倍。WSE 的尺寸比一台 iPad 还要大。Cerebras 的「暴力美学」曾引发人们惊呼:「WSE 的晶体管数量已经超过人类大脑中的神经元了!」Cerebras 也因此在业界闻名。

今天,该公司又宣布其下一代芯片 Wafer Scale Engine 2(WSE 2)将于今年第三季度上市,采用 7nm 制程工艺,晶体管数量翻倍到 2.6 万亿个,含有 850000 个 AI 核心。

WSE-2:46225 平方毫米,2.6 万亿个晶体管。图源:https://cerebras.net/


Cerebras 一直致力于将机器学习问题逻辑解决方案的作用发挥到极致。2015 年 Andrew Feldman 成立该公司时,训练神经网络需要花费较多的时间,大型网络则需要数周。最大的瓶颈是数据必须在处理器和外部 DRAM 存储器之间进行多次传输,既浪费时间又消耗能源。WSE 的研发团队指出:我们可以扩大芯片,使它与 AI 处理器内核一起容纳所需的所有数据。随着自然语言处理、图像识别等领域的发展,神经网络也变得非常庞大,AI 领域需要一个非常大的芯片。有多大?尽可能大,这意味着是整块晶圆,46225 平方毫米。

CEO Feldman 表示:「当你想做出改变时,总是会遇到物理设计上的挑战。所有的东西都与几何有关。这真的很难,但台积电是我们非凡的合作伙伴。」

7 纳米技术的发展意味着巨大的进步,但据 Feldman 表示,该公司还对其 AI 核心的微架构进行了改进。他不愿透露细节,但表示在与客户合作一年多后,Cerebras 吸取了一些经验教训,并将其整合到新的核心中。

WSE 2:7 纳米制程工艺、2.6 万亿个晶体管

WSE 2 采用台积电 7 纳米制程工艺。这使得其可以按比例缩小,并能够在一定程度上缩小 SRAM,WSE 2 上具有 850000 个 AI 核心。WSE 2 的晶片尺寸与 WSE 保持一致,但几乎所有功能都翻倍增加,如下表所示:


与一代 WSE 一样,WSE 2 在 46225 平方毫米的硅片上拥有数十万个 AI 核心。WSE 2 拥有 850000 个核心,2.6 万亿个晶体管——相比之下,市场上第二大的 AI CPU 约为 826 平方毫米,拥有 0.054 万亿个晶体管。相比于 Ampere A100 的 40MB 内存,Cerebras 引入了 40GB SRAM 的板载内存,是前者的 1000 倍。

图中是 WSE 1,WSE 2 与其外观相同,但核心数量翻倍。

其核心通过一个带有 FMAC 数据路径的 2D 网格(2D Mesh)进行连接。Cerebras 与 WSE 的目标是提供一个通过创新专利设计的单一平台,该平台允许用于 AI 计算的更大处理器,现已扩展到更广泛的 HPC 工作负载中。


WSE 2 以第一代为基础

第一代 WSE 芯片拥有 1.2 万亿个晶体管,其数量是英伟达旗舰 GPU Titan V 的 57 倍,使用台积电 16 纳米制程工艺打造,面积 46,225 平方毫米,包含 400,000 个核心,片上存储高达 18G,功耗 1.5 万瓦(约等于 6 台电磁炉的功率),内存带宽 9PB / 秒,通信结构带宽 100PB / 秒。此外,第一代 WSE 还实现了 3000 倍的速度提升以及 10000 倍的存储带宽扩展。

WSE-2 设计的关键是自定义图形编译器,它采用 PyTorch 或 TensorFlow,并将每一层映射到芯片的物理部分,并允许数据流进行异步计算,拥有如此大的处理器意味着不会浪费能源。编译器和处理器在设计时也考虑到了稀疏性,无论批处理大小如何,都允许高利用率,或者允许参数搜索算法同时运行。


WSE 2 与第一代相比如何?

两者相比,芯片本身的大小没有改变,300 毫米仍然是大规模生产中的最大晶圆尺寸,因此 WSE 2 芯片的外形尺寸没有改变,但是 AI 核心翻了一倍。WSE 2 仍然被划分成一个 7×12 的矩形阵列。

WSE 2(左)与 WSE 1(右)对比。

此外,承载 WSE 2 的计算机系统 CS-2 也没有太大变化。CS-2 旨在实现快速、灵活的训练和低延迟的数据中心推断。目前,CS-2 由 WSE-2 提供动力,与其他数据中心 AI 解决方案相比,CS-2 具有更高的计算密度、更快的内存和更高的带宽互连,并使用领先的 ML 框架进行编程。


迅速成长的初创公司 Cerebras

Cerebras Systems 公司 2015 年在美国加州成立,联合创始人及 CEO Andrew Feldman 此前曾创立服务器芯片公司 SeaMicro。

Cerebras 联合创始人及 CEO Andrew Feldman

经过几年的迅速发展,该公司的规模已基本翻倍,在硅谷,圣地亚哥,多伦多和东京拥有约 300 名工程师。

参考链接:
https://www.anandtech.com/show/16626/cerebras-unveils-wafer-scale-engine-two-wse2-26-trillion-transistors-100-yield
https://www.chinaventure.com.cn/news/114-20190820-347306.html
https://cerebras.net/product/
https://spectrum.ieee.org/tech-talk/semiconductors/processors/cerebras-giant-ai-chip-now-has-a-trillions-more-transistors

产业AI芯片Cerebras WSE7nm制程
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

台积电机构

台积电(中国)有限公司成立于台湾新竹科学园区,并开创了专业集成电路制造服务商业模式。台积公司专注生产由客户所设计的芯片,本身并不设计、生产或销售自有品牌产品,确保不与客户直接竞争。公司为客户生产的晶片被广泛地运用在电脑产品、通讯产品、消费性、工业用及标准类半导体等多样电子产品应用领域。

https://www.tsmc.com/schinese/default.ht…
推荐文章
暂无评论
暂无评论~