Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

谷歌做手写数字分类准确率才41.27%?对,不过是用量子计算做的

用神经网络做 MNIST 手写数字识别是机器学习小白用来练手的入门项目,业内最佳准确率已经达到了 99.84%。但最近,谷歌向这个「古老」的数据集发起了一项新的挑战:用量子计算来进行识别,看看准确率能达到多少。

MNIST 对于机器学习研究者来说再熟悉不过了,它是一个由 Yann Lecun 等人创建的手写数字图像数据集,包含训练集和测试集,训练集包含 60000 个样本,测试集包含 10000 个样本(在 2019 年又增加了 50000 个测试集样本)。


机器学习研究中,MNIST 手写数字图像数据集已经作为基准使用了二十余年,它可以说是所有机器学习研究者的入门必备。对于新兴方法的研究来说,从 MNIST 开始也是最合理的选择,2017 年 Geoffrey Hinton 提出的胶囊网络(Capsule Networks)也是这样做的。

目前,大部分深度学习模型在 MNIST 上的分类精度都超过了 95%。有时为了更直观地观察算法之间的差异,我们会使用图像内容更加复杂的 Fashion-MNIST 数据集。

准确率已经如此之高的情况下,用神经网络向此数据集发起挑战已经没有多大意义。于是,谷歌索性换了一个思路:用量子计算技术来挑战一下,看看分类准确率能达到多少。

实验结果表明,用量子计算技术可以在 MNIST 数据集上至少实现 41.27% 的分类准确率,而之前的经典方法只能达到 21.27%。

为什么要这么做?

在现代科技中,量子力学机器学习都发挥着重要作用,量子计算的 AI 应用这一新兴领域很有可能帮助许多学科实现重大突破。然而,目前大多数机器学习从业者对量子力学还没有透彻的了解,多数量子物理学家对机器学习的理解也非常有限。因此,找到一些二者都能理解的问题非常重要,这些问题既要包含简单且被广泛理解的机器学习思想,也要包含类似的量子力学思想。

基于以上考量,谷歌的研究者提出用简单的量子力学知识解决一种简单的机器学习问题——MNIST 手写数字分类。这有点类似于谷歌的 TensorFlow Playground。TensorFlow Playground 本质上就是一种教学辅助,目的是向大众阐明深度学习的关键概念。

研究细节

具体来说,研究者想要探究的是:在一个普通的图像分类问题中,如果你必须在通过一个 filter(可以显示来自测试集的示例图像)的第一个光量子(光子)之后做出决定,最高准确率能达到多少?在 MNIST 手写数字数据集上(28×28 像素),最佳经典方法是检测落在其中某个像素上的光子,然后使用在训练集上观察到的 per-pixel 概率(即光强度)分布来选择最有可能的数字类别。这需要将每个示例图像的亮度缩放到一个单位和(unit sum),以获得一个概率分布。在 MNIST 数据集上,上述经典方法可以实现 21.27% 的分类准确率,大大高于随机结果(10%)。每个像素最有可能的数字类别如下图 2(b)所示。



如果可以将学习到的转换应用到图像和检测器之间的光子的量子态,我们就能利用量子力学实现更高的准确率。分束器和移相器等无源线性光学器件(passive linear optical element)可以用来解决这一问题,它们可以产生一种全息图式的干涉图样。接下来,根据第一个光子落在哪一个区域来进行最大似然估计。这说明了一种量子原理:单个量子的概率振幅与自身发生干涉。此处没有必要同时用许多光子照亮一个场景来产生干涉。

从概念上讲,利用干涉来增强量子实验产生所需结果的可能性是所有量子计算的基本思想。这个问题与现代量子计算之间的主要区别在于,后者试图通过控制多个「纠缠」成分的量子态来执行计算,这些「纠缠」成分通常是耦合了两种状态的量子系统(被称作「量子比特」),通过由整个量子系统量子态的一部分所控制的「量子门」来实现。

因此,构建有多个量子比特的量子计算机需要精细地控制量子比特之间的相互作用。这通常需要将温度降至 0.1 开尔文(-273.05℃)来消除热噪声。

但是,在本文研究的这个问题中,量子态之间的转换可以在室温下使用常规光学器件来完成:绿色光子的能量为 2.5 eV(电子伏特),远高于典型的室温热辐射能量 kT ' 25 meV。但制造一种允许多个光子像在多比特量子计算机中一样交互的设备就非常具有挑战性了。

尽管如此,Knill、Laflamme 和 Milburn 等人在 2001 年设计了一种协议,使其在理论上可行。他们通过巧妙地利用辅助光子量子比特(ancillary photon qubit)、玻色统计和测量过程避免了使用保留相干性的非线性光学器件(可能无法通过实验实现)。在所有此类应用中,基本思想都是采用相干多光子量子态进行多个量子比特的计算。

在这个问题中,研究者只用了一个光子,唯一要处理的相关信息被编码在其波函数的空间部分(即偏振无关)。因此,当前的工作类似于由 Cerf 等人在 1998 年提出的「量子逻辑的光学模拟」,其中一个 N 量子比特的系统由一个光子的 2^N 个空间模式表示。目前相关的研究有用于实现各种算法的类似「量子计算的光学模拟」,包括(小)整数分解等,但仍未与机器学习关联起来。

本研究可以被归为量子不可扩展(non-scalable)架构上的机器学习方法范畴。或者,我们也可以将其视为一项最新研究 (Khoram et al. [2019].) 的量子模拟。


研究者表示:「从概念上说,利用干涉来提高量子实验产生所需结果的可能性是量子计算领域的基本思想。」除了为量子和机器学习专家提供一个容易理解、上手的问题之外,这对于在更易访问的环境中进行测量过程的物理学教学(通常被称为波函数的坍缩)也有一定意义。

遇事不决,量子力学


研究者说,这项工作旨在展示简单的量子力学技术如何能够为解决 AI 问题提供新的思路。

在 MNIST 上,最经典的计算可以实现的是检测落在图像像素之一上的光子,并根据光的强度分布猜测数字,光的强度的分布是通过将每个图像的亮度重新缩放为单位和而获得的。

该研究的量子力学方法采用分束器、移相器和其他光学元件来创建类似全息图的推断图。光子所降落的推断模式区域可作为信息提供给图像分类,从而说明了不必同时用多个光子照射一个场景来产生干涉。

有人预测,量子计算将大大推动人工智能机器学习领域的发展。去年 3 月,IBM、麻省理工学院和牛津大学在《自然》杂志发表了一篇文章,称随着量子计算机变得越来越强大,它们将能够执行特征映射,也就是将数据分解为非冗余特征。如此一来,研究者将可以开发出更高效的 AI,比如去识别传统计算机无法识别的数据模式。

在那篇《自然》杂志的文章中,作者们这样写道:「机器学习量子计算是两种技术,每一种技术都有潜力改变彼此之前无法解决的难题。量子算法所提供的计算加速的核心要素是通过可控的纠缠和干涉来利用指数级的量子态空间。」

参考链接:https://venturebeat.com/2020/08/14/google-researchers-use-quantum-computing-to-help-improve-image-classification/

理论图像识别MNIST量子计算谷歌准确率
1
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

最大似然估计技术

极大似然估计是统计学中用来估计概率模型参数的一种方法

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

量子计算技术

量子计算结合了过去半个世纪以来两个最大的技术变革:信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算,某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界,是在通向更强大和有用的计算技术的关键一步。

胶囊网络技术

简而言之,一个胶囊网络是由胶囊而不是由神经元构成。一个胶囊是一小群神经元,它们可以学习在一个图片的一定区域内检查一个特定的对象(比如,一个矩形)。它的输出是一个向量(例如,一个8维的向量)。每个向量的长度代表了物体是否存在的估计概率[1],它的方向(例如在8维空间里)记录了物体的姿态参数(比如,精确的位置、旋转等)。如果物体有稍微的变化(比如,移动、旋转、尺寸变化等),胶囊将也会输出一个长度相同但是方向稍微变化的向量。因此胶囊是等变的。

量子力学技术

量子力学(Quantum Mechanics),为物理学理论,是研究物质世界微观粒子运动规律的物理学分支,主要研究原子、分子、凝聚态物质,以及原子核和基本粒子的结构、性质的基础理论。

推荐文章
暂无评论
暂无评论~