Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

可训练24万亿参数的大模型,Cerebras 推出其下一代晶圆级 AI 芯片

图:Cerebras 第三代晶圆级 AI 巨型芯片 WSE-3。(来源:Cerebras)

编辑 | 白菜叶

人工智能超级计算机公司 Cerebras 表示,其下一代晶圆级人工智能芯片可以在消耗相同电量的情况下将性能提高一倍。

Wafer Scale Engine 3 (WSE-3,文中又称 CS-3) 包含 4 万亿个晶体管,由于使用了更新的芯片制造技术,比上一代增加了 50% 以上。

该公司表示将在新一代人工智能计算机中使用 WSE-3,这些计算机目前正在 Dallas 的一个数据中心组装,这将是一台能够执行 8 exaflops(每秒 80 亿次浮点运算)的超级计算机。

另外,Cerebras 与高通签订了一项联合开发协议,旨在将人工智能推理的价格和性能指标提高 10 倍。

CS-3 可训练高达 24 万亿个参数神经网络模型,是当前最大 LLM 规模的 10 倍多

凭借 WSE-3,Cerebras 可以继续生产世界上最大的单芯片。它呈正方形,边长为 21.5 厘米,几乎使用整个 300 毫米硅片来制造一个芯片。

芯片制造设备通常仅限于生产不超过约 800 平方毫米的硅芯片。芯片制造商已经开始通过使用3D集成和其他先进封装技术来突破这一限制,以组合多个芯片。不过,即使在这些系统中,晶体管数量也达到数百亿个。

像往常一样,这个大芯片配备了一些令人叹为观止的高级功能。

图片

你可以在 WSE 芯片的发展史中看到摩尔定律的作用。第一个于 2019 年首次亮相,采用台积电的 16 纳米技术制造。对于 2021 年推出的 WSE-2,Cerebras 转而采用台积电的 7 纳米工艺。WSE-3 采用 5 纳米技术制造。

自第一个巨型芯片问世以来,晶体管的数量增加了两倍多。与此同时,它们的用途也发生了变化。例如,芯片上的人工智能核心数量已显著趋于平稳,内存量和内部带宽也是如此。每秒浮点运算(flops)方面的性能改进已经超过了所有其他指标。

图片

图:Cerebras 处理器的标准化变化。(来源:IEEE Spectrum)

CS-3 和 Condor Galaxy 3

围绕新型人工智能芯片 CS-3 构建的计算机旨在训练新一代巨型语言模型,比 OpenAI 的 GPT-4 和谷歌的 Gemini 大 10 倍。

该公司表示,CS-3 可以训练高达 24 万亿个参数神经网络模型,是当今最大的 LLM 规模的 10 倍多,并且无需诉诸其他计算机所需的一组软件技巧。

根据 Cerebras 的说法,这意味着在 CS-3 上训练 1 万亿个参数模型所需的软件就像在 GPU 上训练 10 亿个参数模型一样简单。

可以组合多达 2,048 个系统,这一配置可以在一天内从头开始训练 LLM Llama 70B。不过,该公司表示,还没有那么大的项目正在进行中。

第一台基于 CS-3 的超级计算机是位于 Dallas 的 Condor Galaxy 3,它将由 64 台 CS-3 组成。与其基于 CS-2 的兄弟系统一样,Abu Dhabi 的 G42 拥有该系统。与 Condor Galaxy 1 和 2 一起构成一个 16 exaflops 的网络。

「现有的 Condor Galaxy 网络已经训练了一些业内领先的开源模型,下载量已达数万次。」G42 的首席技术官 Kiril Evtimov 在一份新闻稿中表示,「通过将容量加倍至 16 exaflops,我们期待看到 Condor Galaxy 超级计算机能够实现的下一波创新浪潮。」

与高通达成协议

虽然 Cerebras 计算机是为训练而构建的,但 Cerebras 首席执行官 Andrew Feldman 表示,推理、神经网络模型的执行才是人工智能使用的真正限制。

据 Cerebras 估计,如果地球上的每个人都使用 ChatGPT,每年将花费 1 万亿美元,更不用说大量的化石燃料能源了。(运营成本与神经网络模型的规模和用户数量成正比。)

因此,Cerebras 和高通建立了合作伙伴关系,目标是将推理成本降低 10 倍。Cerebras 表示,他们的解决方案将涉及应用神经网络技术,例如权重数据压缩和稀疏性。

该公司表示,经过 Cerebras 训练的网络将在高通公司的新型推理芯片 AI 100 Ultra 上高效运行。

相关报道:https://spectrum.ieee.org/cerebras-chip-cs3 

产业
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据压缩技术

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。在计算机科学和信息论中,数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据位元(或者其它信息相关的单位)表示信息的过程。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

台积电机构

台积电(中国)有限公司成立于台湾新竹科学园区,并开创了专业集成电路制造服务商业模式。台积公司专注生产由客户所设计的芯片,本身并不设计、生产或销售自有品牌产品,确保不与客户直接竞争。公司为客户生产的晶片被广泛地运用在电脑产品、通讯产品、消费性、工业用及标准类半导体等多样电子产品应用领域。

https://www.tsmc.com/schinese/default.ht…
推荐文章
暂无评论
暂无评论~