Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

清华类脑芯片再登《Nature》: 全球首款基于忆阻器的CNN存算一体芯片,能效高出GPU两个数量级

清华类脑芯片再登Nature: 全球首款基于忆阻器的CNN存算一体芯片

传统计算架构中计算与存储在不同电路单元中完成,造成大量数据搬运功耗增加和额外延迟,被认为是冯·诺依曼计算架构的核心瓶颈。

人类的大脑却并非如此,而是直接在记忆体里计算。被认为具有「存算一体」潜力的忆阻器,因而成为类脑计算领域的热门器件,被寄予提高算力,突破技术瓶颈的厚望。


撰文 | 四月


2 月 27 日机器之心获悉,据清华大学新闻网消息,该校微电子所、未来芯片技术高精尖创新中心钱鹤、吴华强教授团队与合作者成功研发出一款基于多阵列忆阻器存算一体系统,在处理卷积神经网络(CNN)时能效比前沿的图形处理器芯片(GPU)高两个数量级。

该项研究于 1 月 29 日在顶尖学术期刊《自然》杂志(Nature)在线发表,题为《Fully hardware-implemented memristor convolutional neural network(完全由硬件实现的忆阻器卷积神经网络)》,详述了基于忆阻器阵列芯片实现卷积网络的完整硬件过程。

通过这项工作中开发的阵列芯片集成了 8 个包含 2048 个忆阻器的列阵,并构建了一个五层的卷积神经网络进行图像识别,精度高达 96% 以上。

清华类脑芯片再登Nature: 全球首款基于忆阻器的CNN存算一体芯片


基于多个忆阻器阵列实现的存算一体化开发板

该阵列芯片以忆阻器替代经典计算机底层的晶体管,以更小的功耗和更低的硬件成本大幅提升计算设备的算力,在一定程度上突破了传统计算框架「冯诺依曼瓶颈」的限制:大幅提升算力的同时,实现了更小的功耗和更低的硬件成本。

清华类脑芯片再登Nature: 全球首款基于忆阻器的CNN存算一体芯片


清华 LEMON 团队成员:员高滨、姚鹏、吴华强、张清天、唐建石(从左到右)图片来源:清华新闻网

目前,何谦教授和吴华强教授领导了清华大学的LEMON实验室(The Laboratory of Emerging Memory and Novel Computing,新兴存储与新型计算实验室),在过去的几年中一直致力于基于忆阻器的神经形态计算。该小组在材料和设备工程,工艺开发,电路和芯片设计以及算法和系统演示方面取得了显著成就。


 01

来自忆阻器的启发

所谓忆阻器,全称记忆电阻器(Memristor),是继电阻、电容、电感之后的第四种电路基本元件,显示磁通与电荷之间的关系,最早由加州大学伯克利分校教授蔡少棠在 1971 年预言存在,惠普公司在 2008 年研造成功。

简言之,这种组件的的电阻会随着通过的电流质而扭转,而且就算电流进行了,它的电阻依然会停留在之前的值,直到承遭到反向的电流它才会被推回去,就是说能「记住」之前的电流质。

清华类脑芯片再登Nature: 全球首款基于忆阻器的CNN存算一体芯片

受人脑启发,忆阻器设备被组织成交叉点阵列,以实现大规模并行的内存计算并提高电源效率。

这种巧妙的机制和我们大脑中的生物突触和神经元有相仿之处,同时忆阻器还具有尺寸小、操作功耗低、可大规模集成(三维集成)等优点,可以制成高密度交叉点阵列,以通过物理定律实现内存内部大规模并行乘积计算(CIM)。


 02

首个基于忆阻器的 CNN 存算一体芯片


清华类脑芯片再登Nature: 全球首款基于忆阻器的CNN存算一体芯片

基于多个忆阻器阵列的存算一体化计算架构

在该项研究中,清华团队提出用高能效比、高性能的均匀忆阻器交叉阵列处理神经卷积网络(CNN),网络共集成了 8 个 基于忆阻器的处理单元,每个 PE 单元中包含 2048 个单元的忆阻器阵列,以提升并行计算效率。采用基于 ARM 核的动态随机存取存储器。

清华类脑芯片再登Nature: 全球首款基于忆阻器的CNN存算一体芯片

右图展示了该阵列极具可重复性的多级电导率状态,成功证明了存算一体架构全硬件实现的可行性。

每个忆阻器与晶体管采用漏级端相连,即 1T1R 结构。核心 PCB 子系统皮遏止八块忆阻器阵列芯片,每个忆阻器阵列具备 128 × 16 个 1T1R 单元。在水平方向上共有 128 条并行字线和 128 条源线,在垂直方向上共有 16 条位线。

此外,研究者还提出了一种高效的混合训练方法,以适应设备缺陷,改进整个系统的性能。研究者构建了基于忆阻器的五层 mCNN 来执行 MNIST 图像识别任务,识别准确率超过 96%。

清华类脑芯片再登Nature: 全球首款基于忆阻器的CNN存算一体芯片

系统针对 ResNET-56 等大型网络的可扩展性

除了使用不同卷积核对共享输入执行并行卷积外,忆阻器阵列还复制了多个相同卷积核,以并行处理不同的输入。相较于当前最优的图形处理器(GPU),基于忆阻器的 CNN 神经形态系统的能效要高出两个数量级以上,并且该系统可扩展至大型网络,如残差神经网络(ResNet)。

该结果或可促进针对深度神经网络边缘计算提供基于忆阻器的非冯诺伊曼(non-von Neumann)硬件解决方案,大幅提升计算设备的算力,成功实现以更小的功耗和更低的硬件成本完成复杂的计算。


 03

攻关两大难点

据清华大学新闻网介绍,当前国际上的忆阻器研究还停留在简单网络结构的验证,或者基于少量器件数据进行的仿真。基于忆阻器阵列的完整硬件实现仍然有很多挑战。

比如,器件方面,需要制备高一致、可靠的阵列;系统方面,忆阻器因工作原理而存在固有缺陷(如器件间波动,器件电导卡滞,电导状态漂移等),会导致计算准确率降低;架构方面,忆阻器阵列实现卷积功能需要以串行滑动的方式连续采样、计算多个输入块,无法匹配全连接结构的计算效率。

据《北京日报》报道,攻关期间,材料和工艺集成是最大挑战,「做这种新的芯片需要观察大量统计规律,但当时没有大型代工厂支持,我们只能在实验室摸索,有段时间有点崩溃,每次做完实验,结果都很分散。」吴华强在接受采访时说,后来,他们与中科院微电子所、北京大学等单位共同合作,终于解决了难题。

「我们改变材料上覆盖层的组分,通过调试热导率和电导率,调整材料内部导电系数的强弱,来实现优化。」吴华强接受《北京日报》的采访时说。

目前团队已经与一家商业硅代工厂合作,开发了一种混合集成途径,以制造具有优化材料堆栈的大型阵列忆阻器,作为灵活的硬件测试平台。

另一方面,为解决器件固有缺陷造成的系统识别准确率下降问题,团队提出了一种新型的混合训练算法,仅需用较少的图像样本训练神经网络,并微调了最后一层网络的部分权重

清华类脑芯片再登Nature: 全球首款基于忆阻器的CNN存算一体芯片

基于忆阻器的五层 mCNN 网络

据论文介绍,团队成功实现了一个完整的五层 mCNN,用于执行 MNIST 手写数字图像识别任务。优化后的材料堆栈(material stack)能够在 2048 个单晶体管单忆阻器(one-transistor–one-memristor,1T1R)阵列中实现可靠且均匀的模拟开关行为。

使用该研究提出的混合训练机制后,实验在整个测试集上的识别准确率达到了 96.19%。

清华类脑芯片再登Nature: 全球首款基于忆阻器的CNN存算一体芯片

在 mCNN 上进行混合训练

此外,将卷积内核复制到三个并行的忆阻器卷积器可将 mCNN 延迟大约降低了 1/3。高度集成的神经形态系统通过缩小基于忆阻器之间的卷积计算和全连接 VMM 之间的吞吐量差距,为大幅度提高 CNN 效率提供了一个可行的解决方案。

 04

线下实测精度约为 95%

本月,在集成电路领域最重要的会议 ISSCC 上,研究小组针对研究成果进行了报告,芯片实现了多层感知器神经网络,用于对 MNIST 数据集中的手写数字图片进行分类。

清华类脑芯片再登Nature: 全球首款基于忆阻器的CNN存算一体芯片

用于分类 MNIST 手写数字图片的芯片和演示系统

该芯片在芯片上集成了将近 16 万个忆阻器以及所有外围电路,并实现了每瓦每秒 78.4 兆兆位(78.4TOPS/W)运算的超高能效。运行功率低至 40 毫瓦,对 MNIST 图像进行分类的识别精度约 95%。

目前,团队正在致力于开发更复杂的存算一体化芯片,并扩大忆阻器阵列的尺寸,以进一步利用忆阻器提高系统性能。吴华强在接受《北京日报》采访时表示,「我们还计划构建包括忆阻器、存算一体芯片到存算一体编译器等在内的全新计算机系统。」

展望未来,用忆阻器构建「大脑」计算机还有很长的路要走,因为在硬件和软件方面仍然存在许多挑战。而有了体积小、功耗低、算力强的存算一体芯片,手机等移动终端就能运行人工智能应用,让人工智能更懂人类不再遥远。

钱鹤、吴华强团队认为,这种跨学科的研究与协作对于突破传统思维并建立与现有系统完全不同的计算系统至关重要,这将有望通过这种强大的忆阻器彻底改变 AI 硬件。



参考链接:

1.https://news.tsinghua.edu.cn/publish/thunewsen/9671/2020/20200225110757772216750/20200225110757772216750_.html

2.http://bj.people.com.cn/BIG5/n2/2020/0227/c349239-33831801.html

3.https://scihub.bban.top/10.1038/s41586-020-1942-4

入门智能芯片清华团队CNN清华
1
相关数据
冯·诺依曼人物

约翰·冯·诺伊曼(德语:John von Neumann,1903年12月28日-1957年2月8日),原名诺依曼·亚诺什·拉约什(匈牙利语:Neumann János Lajos),出生于匈牙利的美国籍犹太人数学家,现代电子计算机与博弈论的重要创始人,在泛函分析、遍历理论、几何学、拓扑学和数值分析等众多数学领域及计算机学、量子力学和经济学中都有重大贡献。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

边缘计算技术

边缘运算(英语:Edge computing),又译为边缘计算,是一种分散式运算的架构,将应用程序、数据资料与服务的运算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

神经形态计算技术

神经形态工程也称为神经形态计算,是Carver Mead在1980年代后期开发的一个概念,描述了使用包含电子模拟电路来模拟神经系统中存在的神经生物学结构的超大规模集成(VLSI)系统。 近来,神经形态(Neuromorphic)一词已被用于描述模拟、数字、混合模式模拟/数字VLSI以及实现神经系统模型(用于感知,运动控制或多感官集成)的软件系统。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~