Geek AI 张倩编译

为AI寻找最佳人造突触:IBM电化学RAM亮相IEEE电子元件会议

用什么样的设备构建一个神经网络才是最合适的呢?它需要运行速度快、体积小、功耗低,能够可靠地存储许多比特的信息。在旧金山举行的 IEEE 国际电子元件会议上,来自 IBM 公司、普渡大学等机构的研究人员介绍了几种新设备,试图接近深度学习和神经形态计算所需的理想状态。

神经网络可以看作是一组神经元神经元之间相互连接的结构。这些连接(类似于生物神经元中的突触)都具有相应的特殊强度或权重。公司和学术研究人员并没有使用普通 CPU 的逻辑和内存来表示神经网络,而是一直在研究用不同种类的非易失性内存阵列表示它们的方法。这样,就可以在不移动任何数据的情况下进行关键的计算。目前,基于可变电阻式存储器、闪存、磁性随机存储器和相变内存的人工智能系统都处于研究过程中,但它们都有各自的局限性。最近,在旧金山举行的 IEEE 国际电子元件会议上,研究人员提出了一些可能取得更好性能的备选方案。

IBM 公司最近开发了一种名为电化学 RAM(electrochemical RAM)的基础部件,用于构建完美的突触结构。与相变内存或电阻式内存一样,它通过电导率的变化储存信息。但是,相变内存和电阻式内存只能实现两个或几个状态,而电化学 RAM 可以实现几十个甚至数百个状态。

IBM 对电化学 RAM cell 单元的写入操作驱动锂离子进出三氧化钨通道。读数包括测量通道的电导率。

电化学 RAM 的 cell 单元看起来有点像 CMOS(互补金属氧化物半导体)晶体管。栅极位于介电层之上,会覆盖一个半导体通道和两个电极(即源极和漏极)。然而,在电化学 RAM 中,电介质是锂磷氮化物,这是一种用于实验性薄膜锂离子电池的固态电解质。在电化学 RAM 中,对应于 CMOS 晶体管中硅通道的部分是由三氧化钨制成的。通常,我们将三氧化钨用于建造智能窗户等设备。

为了设置电阻的水平——神经网络项中突触的「权重」——让脉冲电流穿过栅极和源极。当这个脉冲具有某种极性时,它会将锂离子驱入钨层,使钨层导电。反转输出电压的极性后,离子会逃逸回磷酸锂中,从而降低电导率。

当我们想要读取突触的权重时,只需要在源极和漏极之间设置一个电压,然后感知产生的电流。IBM T.J. Watson 研究中心的 Jianshi Tang 说,ECRAM 的优点之一是:可以将当前的读路径和写路径分离开来。相变内存和电阻式内存必须让电流通过相同的路径才能设置和感知电导率。因此,读取 cell 单元可能会导致其电导率漂移。

IBM 的一个独立研究小组也在 IEDM 上提出了解决这个漂移问题的方案。该团队提出的「投影」相变内存的 cell 单元包含一个可以在不让读取电流重写 cell 单元的情况下将其分流的结构。)

IBM 根据其测试版本的 cell 单元构建了一套测量标准,以测量由这样的一组单元组成的神经网络可以达到多高的准确率。他们在 MNIST 手写数字数据库上进行了测试,实验结果表明,这个神经网络达到了 96% 的准确率,与理想相差无几。他们最初想通过将 cell 单元能达到的电导率状态数增加一倍(达到 110)来提高准确度,但没有成功。Tang 说:「准确率并没有进一步提升,这让我们感到很惊讶」。

普渡大学的神经网络通过调整网络权重的反馈过程进行学习。当设备具有对称的电气特性时,其工作效果最好。

IBM 的团队发现,电导率在上升到峰值和下降之间的轻微不对称性会阻碍准确率的提升。完全对称意味着一次电流脉冲应该会改变一定数量的电导率,然后相反极性上相同的脉冲应该精确地将电导率返回到它的起点。与其他非易失性存储器相比,ECRAM 具有良好的对称性,但这还并不完美。

将这种不对称性降低一半,就能使神经网络达到可能的最佳准确率。根据他们的研究,通过调整设备的动态范围,将不对称性降低一半是绝对可行的。

IBM 团队还说明了,ECRAM 的导电通道可以缩小到 100 纳米宽的程度,而他们最初构建的导电通道有 60 微米宽。这样大小的 ECRAM 只需要千万亿分之一焦耳的能量就能改变其状态,这接近于人类神经元突触所消耗的能量。Tang 说:「当然,没有什么事请是完美的。使用 ECRAM 实现神经形态阵列仍然存在一些挑战」。

Peide Ye/普渡大学锗铁电纳米线晶体管可能具有适用于加速人工智能的特性。

ECRAM 并不是今年 IEDM 上在这个领域的唯一竞争者。由 IEEE Fellow Peide Ye 领导的普渡大学的研究小组小组提出了一种由锗纳米线和铁电材料制成的装置。铁电体对微小的电压有很强的极化反应。通过在晶体管的栅极上放置铁电,研究人员希望降低晶体管开关时的电压,从而降低功耗。但是你也可以在铁电体中储存信息。这是通过翻转部分铁电体的极性,从而改变在给定电压下通过晶体管的电流来实现的。这就是 Peide Ye 的团队所做的工作,他们制造出了一种能够产生超过 256 种电导状态的器件。更重要的是,它可以上调或下调那些具有合理对称性的电导态。一个利用该装置制作的处理 MNIST 手写数字任务的仿真网络的准确率达到了 88%。

然而,如果你的神经网络不需要执行学习任务,就不需要这种对称性和数百种电导状态。日常生活中,你可能想要人工智能系统做很多事情,比如让你的咖啡机在听到「唤醒命令」后启动,这些系统会学会在云端离线工作。完成这项工作所需的权重集合和神经连接将被加载到咖啡机内一个专用的低功耗芯片上。许多初创公司都在寻求为自己开辟一番天地,提供这些具有「推断」功能的芯片或背后的技术,其中一些公司依赖于使用内存单元来存储权重并执行关键的深度学习计算任务。例如,Syntiant、Mythic 以及 Anaflash 都为它们的芯片处理工作使用了嵌入式闪存。

圣母大学的 FeMFET 的铁电层建立在晶体管之上,而芯片往往在这里进行互联。

来自印第安纳州圣母大学和德克萨斯州奥斯汀市三星高级逻辑实验室的一组研究人员发明了一种用于嵌入式人工智能芯片的新型存储单元:铁电金属 FET(FeMFET)。圣母大学的 Kai Ni 希望提升 FeFET 在此类人工智能应用上的性能;FeFET 一直受制于写入权重时所需的高电压,这导致了一些可靠性问题。他们提出的解决方案是将铁电层从晶体管中移出,使其成为位于晶体管上方的独立电容器。

权重写入可容纳两位比特的 FeMFET,所耗费的电压不到以前使用铁电体的人工智能方案的一半。但就目前而言,实现这种技术需要太长时间。Ni 说:「我们现在唯一的缺点就是写入速度,我们认为这不是 cell 单元的固有特性,是可以改进的」。

可能目前并没有用于神经形态芯片和深度学习设备的完美的突触结构。但从上周在 IEDM 上公布的各种新的、实验性的测试结果来看,我们将拥有更好的突触结构。

原文链接:https://spectrum.ieee.org/tech-talk/semiconductors/devices/searching-for-the-perfect-neuron-for-ai

入门电子元件AIIEEEIBM
1
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

推荐文章
暂无评论
暂无评论~