机器之心编辑部翻译

3D打印的深度神经网络,光速执行AI运算

大脑中神经元之间的信号传播速度大约是 100 米每秒,而光的传播速度是 30 万千米每秒,如果神经元信号也是光速传播的呢?来自加州大学洛杉矶分校(UCLA)的研究人员利用 3D 打印技术打印出了固态的神经网络,并且利用层级传播的光衍射来执行计算,实现了手写数字的图像识别,相关成果已发表在《science》杂志上。

这一想法看似新奇,其实也很自然。神经网络中执行的是线性运算,恰好和光衍射的线性相互作用对应,神经元权重、激活值概念也能和光的振幅、相位对应(可调)。此外,固态光衍射计算还具有能耗小、无发热、光速执行(尽管传统计算机电路中的电场传播也是光速的,但并未直接对应神经网络的计算过程)等优点。该研究方向尚处于起步阶段,如果能充分利用其优势,也许会有很广阔的应用前景。

如今,机器学习无处不在,但多数机器学习系统是隐形的:它们在「黑箱」里优化音频或识别图像中的人脸。但最近 UCLA 的研究人员研发出了一个 3D 打印 AI 分析系统。这一系统不仅看得见,还摸得着。与以往通过调节数字进行分析的系统不同,该系统通过光线的衍射来分析人工智能。这一新奇、独特的研究成果表明:这些「人工智能」系统可以看起来非常简单。

我们通常将机器学习系统看作人工智能的一种形式,其核心是对一组数据进行的一系列运算,每一次运算都基于上一次运算或馈送到一个循环中。运算本身并不太复杂——尽管也没有简单到可以用纸笔计算的程度。最终,这些简单的数学运算会得出一个概率,即输入的数据与系统「学会」识别的各种模式相匹配。

通常,机器学习系统进行每一次参数更新或推断时所需的运算需要在 CPU 或 GPU 上进行。由于当前的深度学习需要大量并行计算,GPU 成了更广泛的选择。但即使最先进的 GPU 也是用硅和铜制成的,信息需要沿着错综复杂的电路以脉冲的形式传播。这就意味着,不论是执行新的计算还是重复的计算,传统 GPU 都会产生能耗。

因此,当深度学习中的这些「层」已经完成训练,并且所有参数的值都确定下来,它还会一次次地重复计算与耗能。这意味着 3D 打印 AI 分析系统在训练完它的「层」后,还可以被优化,不会占用太大空间或 CPU 功率。来自 UCLA 的研究人员表示,它确实可以固化,这些层本身就是由透明材料制成的 3D 打印层,印有复杂的衍射图案,这些图案可以对光线进行处理。

如果这样描述让你觉得有点头疼,不妨想想机械计算器。如今,数字计算都是在计算机逻辑中以数字形式完成的。但是过去,计算器需要移动实际的机械零件才能进行计算——数字加到 10 都会造成零件位置变换。从某种程度上来说,这种「衍射深度神经网络」与之相仿:它使用并操纵数字的物理表示,而不是电子表示。这就代表着,如果将模型的预测过程固化为物理表示,那么它在实际预测过程中就能大大降低能耗。

正如研究人员所说:

给定层上的每个点传输或反射入射波,该入射波相当于通过光学衍射连接到下一层其它神经元的人工神经元。通过改变相位和振幅,每个「神经元」都是可调的。

「我们的全光深度学习框架能够以光速执行各种复杂任务,基于计算机的神经网络也可以实现这些任务。」研究人员在论文中描述其系统时写道。

为了证明这一点,他们训练了一个深度学习模型来识别写手写数字。完成之后,他们会把矩阵数学层转化为一系列的光学变换。例如,一个层可能会通过将两者的光线重新聚焦到下一层的单个区域来增加值——实际计算比这要复杂得多,此处只做概述。

通过在印刷版上布置数百万个微型转换,光从一端输入并从另一个结构中输出,因此系统能以超过 90% 的准确率判断它是否为 1、2 和 3 等。

读者可能会疑问这到底有什么用,因为最简单的三层感知机在识别手写数字时都能轻松达到 95% 以上的准确率,而卷积网络可以实现 99% 以上的准确率。这一形式目前确实没什么实际用处,但是神经网络是非常灵活的工具,系统完全有可能识别字母而不是仅限于数字。因此可以令光学字符识别系统在硬件中运行,且基本上不需要能耗或计算。

真正的局限在于制造工艺:打造一个能实现按需处理任务的超高精度衍射板非常困难。毕竟,如果需要精确到小数点后七位,而印刷版却只能精确到第三位的话,那就相当麻烦了。

这只是一个概念的证明——对大型数字识别机器并没有迫切需求——但这个想法十分有趣。该想法可能会对摄像机和机器学习技术产生影响——在物质世界而非虚拟世界里构造光与数据。看起来像是倒退,但也许只是钟摆在向后摆动。

论文:All-optical machine learning using diffractive deep neural networks(利用衍射深度神经网络的全光机器学习

论文地址:http://science.sciencemag.org/content/early/2018/07/25/science.aat8084

摘要:深度学习已经提高了我们使用计算机执行高级推理任务的能力。我们在本文中引入了一种物理机制来执行机器学习,这是一种全光衍射深度神经网络(D^2NN)架构,可以按照基于深度学习设计的、集体工作的被动衍射层来实现多种函数。我们构建了 3D 打印的 D^2NN 来实现手写数字和时尚产品的图像分类,以及成像镜头在太赫兹光谱的函数。我们的全光深度学习框架能以光速计算多种基于传统计算机的神经网络也可以实现的复杂函数,并将在全光图像分析、特征检测和目标分类中开发新的应用,此外它还允许设计新的摄像头和光学器件,以利用 D^2NN 执行独特的任务。

图 1:衍射深度神经网络(D^2NN)架构。

图 2:3D 打印的衍射深度神经网络测试实验。

图 3:衍射深度神经网络实现手写数字识别。

原文链接:https://techcrunch.com/2018/07/26/this-3d-printed-ai-construct-analyzes-by-bending-light/

理论神经网络神经元
11
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

深度神经网络技术
Deep neural network

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

逻辑技术
Logic

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经元技术
neurons

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

光学字符识别技术
Optical character recognition

光学字符识别是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在这个过程中,手写的、打印的等多种类型的图像被转换为机器编码的文本,这些含有文字信息的图像可以是扫描而来,也可以是场景文本——如照片中出现的广告牌文字 (scene text),或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法,可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并用于认知计算、机器翻译、(提取)文本到语音、 关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

感知技术
perception

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

权重技术
Weight

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

机器之心
机器之心

机器之心是国内领先的前沿科技媒体和产业服务平台,关注人工智能、机器人和神经认知科学,坚持为从业者提供高质量内容和多项产业服务。

返回顶部