Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

加州大学等高校合作,开发基于电阻随机存取存储器的内存计算芯片

编辑 | 萝卜皮

直接在边缘设备上实现日益复杂的人工智能(AI)功能需要边缘硬件前所未有的能源效率。基于电阻式随机存取存储器(RRAM)的内存中计算(CIM)有望通过在密集、模拟和非易失性 RRAM 设备中存储AI模型权重,并直接在 RRAM 中执行 AI 计算,从而消除独立计算和内存之间耗电的数据移动,来满足这种需求。

尽管最近的研究已经证明了完全集成的 RRAM-CIM 硬件上的内存矩阵向量乘法,但 RRAM-CIM 芯片的目标仍然是同时提供高能效、支持各种模型的多功能性和软件可比的精度。尽管效率、多功能性和准确性对于广泛采用该技术都是必不可少的,但它们之间相互关联的权衡不能通过对设计的任何单一抽象级别的孤立改进来解决。

在这里,通过对从算法和架构到电路和设备的所有设计层次进行共同优化,来自斯坦福大学、加州大学、清华大学等高校的研究人员,介绍了 NeuRRAM——一种基于 RRAM 的 CIM 芯片,该芯片在为不同的模型架构重新配置 CIM 核心方面同时提供了多功能性。

能效方面,在各种计算位精度上比当前最先进的 RRAM-CIM 芯片好 1 倍;推理精度可与在各种 AI 任务中量化为四位权重的软件模型相媲美,包括 MNIST 的 99.0% 和 85.7% 的准确度;在 CIFAR-10 图像分类方面,Google 语音命令识别的准确率为 84.7%,在贝叶斯图像恢复任务中图像重建错误减少了 70%。

该研究以「A compute-in-memory chip based on resistive random-access memory」为题,于 2022 年 8 月 17 日发布在《Nature》。

电阻式随机存取存储器(RRAM)内存计算(CIM)领域的早期研究侧重于在制造的 RRAM 设备上展示人工智能(AI)功能,同时使用片外软件和硬件来实现基本功能,例如,一个完整系统的模数转换和神经元激活。尽管这些研究提出了各种技术来减轻与模拟相关的硬件非理想性对推理准确性的影响,但报告的 AI 基准测试结果通常是通过基于特征设备数据执行软件仿真获得的。由于硬件非理想模型的不完整建模,与完全硬件测量的结果相比,这种方法通常会高估准确度。

最近的研究表明,完全集成的 RRAM 互补金属氧化物半导体(CMOS)芯片能够执行内存中矩阵向量乘法(MVM)。然而,要在实际 AI 应用中广泛采用 RRAM-CIM 芯片,它需要同时提供高能效、支持各种 AI 模型架构的灵活性和软件可比的推理精度。

到目前为止,还没有一项旨在同时改进设计的所有这三个方面的研究。此外,先前研究中的人工智能应用级基准测试的多样性和复杂性有限。这些研究都没有通过实验测量多个边缘 AI 应用程序,其复杂性与 MLPerf Tiny 中的应用程序相匹配,MLPerf Tiny 是边缘 AI 硬件的常用基准套件。

挑战来自效率、灵活性和准确性之间相互关联的权衡。RRAM-CIM 架构中的高度并行模拟计算带来了卓越的效率,但难以实现与数字电路相同水平的功能灵活性和计算精度。同时,由于在边缘使用较少的过度参数化模型,对于更复杂的 AI 任务,实现对硬件非理想的算法弹性变得更加困难。

为了应对这些挑战,来自斯坦福大学、加州大学、清华大学、圣母大学等高校的国际团队开发了 NeuRRAM,这是一种 48 核 RRAM-CIM 硬件,涵盖了整个设计堆栈的创新。

图示:NeuRRAM 芯片的设计方法和主要意义。(来源:论文)

(1)在器件层面,3 百万个具有高模拟可编程性的 RRAM 器件与 CMOS 电路单片集成。

(2)在电路层面,电压模式神经元电路支持可变计算位精度和激活函数,同时以低功耗和紧凑的面积进行模数转换。

(3)在架构层面,双向转座神经突触阵列(TNSA)架构能够以最小的面积和能量开销实现数据流方向的可重构性。

(4)在系统层面,48 个 CIM 核心可以并行进行推理,支持多种权重映射策略。

(5)在算法层面,各种硬件算法协同优化技术减轻了硬件非理想对推理精度的影响。

该团队报告了一系列 AI 任务的完全硬件测量推理结果,包括使用 CIFAR-10 和 MNIST 数据集的图像分类、Google 语音命令识别和 MNIST 图像恢复,使用包括卷积神经网络(CNN)在内的各种 AI 模型实现,长短期记忆(LSTM)和概率图形模型。该芯片经过测量可实现比以前最先进的 RRAM-CIM 芯片更低的能量延迟积(EDP),同时它在一系列配置上运行以适应各种 AI 基准应用程序。

图示:NeuRRAM 芯片的可重构架构。(来源:论文)

通过降低边缘 AI 推理所需的功耗,这款 NeuRRAM 芯片可以带来更强大、更智能、更易于访问的边缘设备和更智能的制造。它还可以带来更好的数据隐私,因为将数据从设备传输到云会带来更高的安全风险。

在 AI 芯片上,将数据从内存转移到计算单元是一大瓶颈。

「这相当于每天两个小时的通勤时间为八小时。」该研究的第一作者 Weier Wan 解释说。

为了解决这个数据传输问题,研究人员使用了所谓的电阻式随机存取存储器,这是一种非易失性存储器,允许直接在存储器内而不是在单独的计算单元中进行计算。使用 RRAM 芯片进行计算不一定是新事物,但通常会导致在芯片上执行的计算的准确性降低,并且芯片架构缺乏灵活性。

「自 30 多年前引入内存计算以来,它一直是神经形态工程中的常见做法。」加州大学教授,该研究的主要参与者 Gert Cauwenberghs 说,「NeuRRAM 的新特点是,现在极高的效率与各种 AI 应用的极大灵活性相结合,与标准数字通用计算平台相比,准确性几乎没有损失。」

精心设计的方法是跨硬件和软件抽象层进行多层次「协同优化」的关键,从芯片的设计到运行各种 AI 任务的配置。此外,该团队确保考虑到从存储设备物理到电路和网络架构的各种限制。

「这款芯片现在为我们提供了一个平台,可以解决从设备和电路到算法的堆栈问题。」圣母大学计算机科学与工程助理教授 Siddharth Joshi 说。

芯片性能

研究人员通过一种称为能量延迟积或 EDP 的方法来测量芯片的能量效率。EDP 结合了每次操作消耗的能量和完成操作所需的时间。通过这一措施,与最先进的芯片相比,NeuRRAM 芯片的 EDP 低 1.6 到 2.3 倍(越低越好),计算密度高 7 到 13 倍。

研究人员在芯片上运行各种 AI 任务。它在手写数字识别任务上达到了 99% 的准确率;图像分类任务准确率达 85.7%;谷歌语音命令识别任务准确率达 84.7%。此外,该芯片还在图像恢复任务中实现了 70% 的图像重建误差降低。这些结果可与现有的数字芯片相媲美,这些芯片在相同的位精度下执行计算,但大大节省了能源。

研究人员指出,该研究的一个关键贡献是所有特色结果都是直接在硬件上获得的。在之前的许多内存计算芯片工作中,AI 基准测试结果通常部分通过软件模拟获得。

下一步包括改进架构和电路,并将设计扩展到更先进的技术节点。研究人员还计划解决其他应用,例如脉冲神经网络。


图示:具有多位输入和输出的电压模式 MVM。(来源:论文)

新架构

NeuRRAM 能源效率的关键是一种创新的方法来检测内存中的输出。传统方法使用电压作为输入并测量电流作为结果。但这导致需要更复杂和更耗电的电路。在 NeuRRAM 中,该团队设计了一种神经元电路,可以感应电压并以节能的方式执行模数转换。这种电压模式感测可以在单个计算周期内激活 RRAM 阵列的所有行和所有列,从而实现更高的并行度。

图示:提高 NeuRRAM 推理精度的硬件算法协同优化技术。(来源:论文)

在 NeuRRAM 架构中,CMOS 神经元电路与 RRAM 权重物理交错。它不同于传统设计,其中 CMOS 电路通常位于 RRAM 重量的外围。神经元与 RRAM 阵列的连接可以配置为作为神经元的输入或输出。这允许在各种数据流方向上进行神经网络推理,而不会产生面积或功耗方面的开销。同时,反过来又使架构更易于重新配置。

为了确保人工智能计算的准确性可以在各种神经网络架构中保持不变,研究人员开发了一套硬件算法协同优化技术。这些技术在各种神经网络上得到了验证,包括卷积神经网络、长短期记忆和受限玻尔兹曼机。

图示:测量结果显示了硬件算法协同优化技术的有效性。(来源:论文)

作为神经形态的 AI 芯片,NeuroRRAM 跨 48 个神经突触核心执行并行分布式处理。为了同时实现高通用性和高效率,NeuRRAM 通过将神经网络模型中的一层映射到多个核上以对多个数据进行并行推理,从而支持数据并行。此外,NeuRRAM 通过将模型的不同层映射到不同的内核并以流水线方式执行推理来提供模型并行性。

论文链接:https://www.nature.com/articles/s41586-022-04992-8

相关报道:https://techxplore.com/news/2022-08-neuromorphic-chip-ai-edge-small.html

理论
暂无评论
暂无评论~