Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

低耗能高速度,EPFL和微软研究团队的新方法:深度物理神经网络的无反向传播训练

图片

编辑 | 萝卜皮

随着大规模深度神经网络(NN)和其他人工智能(AI)应用的最新发展,人们越来越担心训练和操作它们所需的能源消耗。

物理神经网络可以成为这个问题的解决方案,但传统算法的直接硬件实现面临着多重困难。使用传统反向传播算法训练神经网络会面临一些挑战,例如缺乏可扩展性、训练过程中操作的复杂性以及对数字训练模型的依赖。

洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne,EPFL)和微软研究团队(Microsoft Research)等机构组成的合作团队提出了一种通过物理局部学习(PhyLL)算法增强的简单深度神经网络架构,该架构可以对深度物理神经网络进行监督和无监督训练,而无需详细了解非线性物理层的属性。

利用这种方法,研究人员在元音和图像分类实验中训练了多种基于波的物理神经网络,并展示了该方法的普遍性。该团队的方法比其他硬件感知训练方案具有优势,可以提高训练速度、增强稳健性;同时,通过消除系统建模的需要来降低功耗,从而减少数字计算需求。

该研究以「Backpropagation-free training of deep physical neural networks」为题发,于 2023 年 11 月 23 日发布在《Science》。

图片

深度学习已成为一项取得了巨大成功的突破性技术,主要在传统的冯·诺依曼计算硬件上运行。该技术目前面临高能耗(例如 GPT-3 的 1.3  GWh 用电量)和低计算速度的问题。

由于这些挑战,科学家正在探索人工神经网络(ANN)的替代物理平台,包括光学、自旋电子学、纳米电子设备、光子硬件和声学系统

目前,局部学习已被广泛研究用于训练数字神经网络,从早期的 Hopfield 模型中的 Hebbian 对比学习工作到最近的生物学合理框架、块式 BP 和对比表示学习。

受这一概念的启发,为了解决基于 BP 的 PNN 训练的局限性,EPFL 等机构的研究人员提出了一种简单且物理兼容的 PNN 架构,并通过物理局部学习 (PhyLL) 算法进行了增强。

图片

图:Deep PNNs。(来源:论文)

该方法能够在本地对任意 PNN 进行监督和无监督对比学习训练,而无需了解非线性物理层并训练数字孪生模型。在这种无 BP 方法中,通常由数字计算机执行的标准后向传递被替换为通过物理系统的附加单个前向传递。

这种替代可以消除由于其他硬件感知框架中存在的数字孪生建模阶段而产生的额外开销,从而提高基于波的 PNN 训练阶段的训练速度、功耗和内存使用率。

图片

图:Acoustic-PNN。(来源:论文)

该方法即使在暴露于不可预测的外部扰动的系统中,依然能保持稳健性和适应性。

图片

图:Deep PNN 对不可预测的外部扰动的稳健性。(来源:论文)

为了展示该方法的普遍性,研究人员使用三个基于波的系统进行了实验元音和图像分类,这三个系统在潜在的波现象和所涉及的非线性类型方面有所不同。

图片

图:Microwave-PNN。(来源:论文)

由于人工神经网络规模空前增长,例如预计将不断增加的大型语言模型(LLM),这些网络的训练和推理阶段的成本呈指数级增长。

PNN 等专用硬件有可能大幅降低这些成本。之前 Anderson 团队曾经预测,与未来大型 Transformer 模型的数字电子处理器相比,推理时间能效优势约为 8000 倍。EPFL 团队提出的训练方法可以作为训练这些光学 LLMs 的可行候选方法,有可能提供显著的能源效率和速度优势。

图片

图:Optics-PNN。(来源:论文)

利用光学实现大规模 LLM 仍然面临一些挑战,例如当前的 SLM 容量仅限于几百万个参数,远低于所需的数十亿个参数。然而,实现十亿参数光学架构和节能 PNN 并不存在根本障碍。

《Science》杂志副主编 Yury Suleymanov 评价道:「该研究是优化神经网络中的能源密集型训练步骤的重要一步,从而为现代人工智能系统提供更有效的解决方案。」

论文链接:https://www.science.org/doi/10.1126/science.adi8474

产业语言模型
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
冯·诺依曼人物

约翰·冯·诺伊曼(德语:John von Neumann,1903年12月28日-1957年2月8日),原名诺依曼·亚诺什·拉约什(匈牙利语:Neumann János Lajos),出生于匈牙利的美国籍犹太人数学家,现代电子计算机与博弈论的重要创始人,在泛函分析、遍历理论、几何学、拓扑学和数值分析等众多数学领域及计算机学、量子力学和经济学中都有重大贡献。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

反向传播算法技术

反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

数字孪生技术

数字孪生(*Digital twin*)指可用于各种目的物理资产(物理孪生,physical twin)、过程、人员、场所、系统和设备的数字副本。

推荐文章
暂无评论
暂无评论~