Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

登 Nature 子刊,滑铁卢大学团队评论「量子计算机+大语言模型」当下与未来

图片

编辑 | X

模拟当今量子计算设备的一个关键挑战,是学习和编码量子比特之间发生的复杂关联的能力。基于机器学习语言模型的新兴技术已经显示出学习量子态的独特能力。

近日,加拿大滑铁卢大学的研究人员在《Nature Computational Science》发表题为《Language models for quantum simulation》 的 Perspective 文章,强调了语言模型在构建量子计算机方面所做出的贡献,并讨论了它们在量子优势竞争中的未来角色。

图片

论文链接:https://www.nature.com/articles/s43588-023-00578-0

量子计算机已经开始成熟,最近许多设备都声称具有量子优势。经典计算能力的持续发展,例如机器学习技术的快速崛起,引发了许多围绕量子和经典策略之间相互作用的令人兴奋的场景。随着机器学习继续与量子计算堆栈快速集成,提出了一个问题:它是否可以在未来以强大的方式改变量子技术?

当今量子计算机提出的一个关键挑战是量子态的学习。近年来迅速进入该领域的生成模型给出了学习量子态的两种广泛策略。

图片

图示:自然语言及其他领域的生成模型。(来源:论文)

首先,通过代表量子计算机测量输出的数据集,数据驱动的学习通过传统的最大似然方法进行。其次,量子态可以通过所谓的物理学方法来解决,该方法利用量子比特之间相互作用的知识来定义替代损失函数

无论哪种情况,量子态空间(希尔伯特空间)的大小都会随着量子比特数量 N 呈指数增长,这是典型的维数灾难。这对于扩展模型中表示量子态所需的参数数量以及寻找最佳参数值的计算效率提出了严峻的挑战。基于人工神经网络生成模型非常适合应对这一挑战。

语言模型是一种特别有前途的生成模型,它已成为解决高复杂性语言问题的强大架构。由于其可扩展性,也适用于量子计算中的问题。如今,随着工业语言模型进入数万亿个参数的范围,人们很自然地想知道类似的大型模型在物理学中可以实现什么,无论是在扩展量子计算等应用中,还是在量子物质、材料和设备的基础理论理解中。

图片

图示:量子物理问题及其变分公式。(来源:论文)

量子计算自回归模型

语言模型是旨在从自然语言数据推断概率分布生成模型

生成模型的任务是学习语料库中出现的单词之间的概率关系,允许每次生成一个标记的新短语。主要困难在于对单词之间所有复杂的依赖关系进行建模。

类似的挑战也适用于量子计算机,其中纠缠等非局部相关性会导致量子比特之间高度不平凡的依赖性。因此,一个有趣的问题是,工业界开发的强大自回归架构是否也可以应用于解决强相关量子系统中的问题。

图片

图示:文本和量子比特序列的自回归策略。(来源:论文)

RNN 波函数

RNN 是任何包含循环连接的神经网络,因此 RNN 单元的输出取决于先前的输出。自 2018 年以来,RNN 的使用迅速扩大,涵盖了理解量子系统中各种最具挑战性的任务。

RNN 适合这些任务的一个关键优势是它们能够学习和编码量子比特之间高度重要的相关性,包括本质上非局域的量子纠缠。

图片

图示:用于量子比特序列的 RNN。(来源:论文)

物理学家已将 RNN 用于与量子计算相关的各种创新用途。RNN 已用于根据量子比特测量重建量子态的任务。RNN 还可以用于模拟量子系统的动态特性,这被认为是量子计算最有前途的应用之一,因此也是定义量子优势的一项关键任务。RNN 已被用作构建神经纠错解码器的策略,这是容错量子计算机开发的关键要素。此外,RNN 能够利用数据驱动和物理启发的优化,从而在量子模拟中实现越来越多的创新用途。

物理学家社区继续积极开发 RNN,希望利用它们来完成量子优势时代遇到的日益复杂的计算任务。RNN 在许多量子任务中与张量网络的计算竞争力,加上它们利用量子比特测量数据的价值的天然能力,表明 RNN 将继续在未来模拟量子计算机的复杂任务中发挥重要作用。

Transformer 量子态

多年来,虽然 RNN 在自然语言任务中取得了巨大成功,但最近它们在工业中因 Transformer 的自注意力机制而黯然失色,而 Transformer 是当今大型语言模型 (LLM) 编码器-解码器架构的关键组成部分。

缩放(scaling ) Transformer 的成功,以及它们在语言任务中所展示的非平凡涌现现象所引发的重要问题,一直吸引着物理学家,对他们来说,实现缩放是量子计算研究的主要目标。

从本质上讲,Transformer 就是简单的自回归模型。然而,与 RNN 不同的是,RNN 是通过隐藏向量进行相关性的隐式编码,Transformer 模型输出的条件分布明确依赖于序列中有关自回归特性的所有其他变量。这是通过因果屏蔽的自注意力机制来完成的。

图片

图示:注意文本和量子比特序列。(来源:论文)

与语言数据一样,在量子系统中,注意力是通过获取量子比特测量值并通过一系列参数化函数进行转换来计算的。通过训练一堆这样的参数化函数,Transformer 可以学习量子比特之间的依赖关系。有了注意力机制,就不需要将传递隐藏状态的几何结构(就像在 RNN 中一样)与量子比特的物理排列相关联。

通过利用这种架构,可以训练具有数十亿或数万亿参数的 Transformer。

对于当前一代量子计算机来说,结合数据驱动和物理启发学习的混合两步优化非常重要,已经证明了 Transformer 能够减轻当今不完美的输出数据中出现的错误,并可能形成强大的纠错协议的基础,以支持未来真正容错硬件的开发。

随着涉及量子物理 Transformer 的研究范围不断迅速扩大,一系列有趣的问题仍然存在。

量子计算语言模型的未来

尽管物理学家对它们的探索时间很短,但语言模型在应用于量子计算领域的广泛挑战时已经取得了显著的成功。这些成果预示着未来许多有前途的研究方向。

量子物理学中语言模型的另一个关键用例来自于它们的优化能力,不是通过数据,而是通过哈密顿量或 Lindbladian 的基本量子比特相互作用的知识。

最后,语言模型通过数据驱动和变分驱动优化的结合,开辟了混合训练的新领域。这些新兴的策略为减少错误提供了新的途径,并显示出对变分模拟的强大改进。由于生成模型最近已被改编为量子纠错解码器,混合训练可能为未来实现容错量子计算机的圣杯迈出了重要一步。这表明,量子计算机和在其输出中训练的语言模型之间即将出现良性循环。

图片

图示:语言模型通过良性循环实现量子计算的扩展。(来源:论文)

展望未来,将语言模型领域与量子计算联系起来的最令人兴奋的机会在于它们展示规模和涌现的能力。

如今,随着 LLM 涌现特性的展示,一个新的领域已经被突破,提出了许多引人注目的问题。如果有足够的训练数据,LLM 是否能够学习量子计算机的数字副本?控制堆栈中包含语言模型,将如何影响量子计算机的表征和设计?如果尺度足够大,LLM 能否显示超导等宏观量子现象的出现?

当理论学家思考这些问题时,实验和计算物理学家已经开始认真地将语言模型应用于当今量子计算机的设计、表征和控制中。当我们跨越量子优势的门槛时,我们也进入了扩展语言模型的新领域。虽然很难预测量子计算机和 LLM 的碰撞将如何展开,但显而易见的是,这些技术相互作用所带来的根本性转变已经开始。

理论语言模型机器学习量子计算Nature 子刊
相关数据
哈密顿人物

William Rowan Hamilton爵士MRIA(1805年8月4日 - 1865年9月2日)是一位爱尔兰数学家,他为经典力学、光学和代数做出了重要贡献。 虽然哈密顿不是物理学家(他认为自己是一个纯粹的数学家)他的工作对物理学起着至关重要的作用,特别是他对牛顿力学的重新定义,现在称为哈密顿力学。 这项工作已被证明是对电磁学等经典场论的现代研究以及量子力学发展的核心。 在纯数学中,他最出名的是四元数的发明者。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

维数灾难技术

维数灾难(英语:curse of dimensionality,又名维度的诅咒)是一个最早由理查德·贝尔曼(Richard E. Bellman)在考虑优化问题时首次提出来的术语,用来描述当(数学)空间维度增加时,分析和组织高维空间(通常有成百上千维),因体积指数增加而遇到各种问题场景。这样的难题在低维空间中不会遇到,如物理空间通常只用三维来建模。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

希尔伯特空间技术

在数学里,希尔伯特空间即完备的内积空间,也就是说一个带有内积的完备向量空间。是有限维欧几里得空间的一个推广,使之不局限于实数的情形和有限的维数,但又不失完备性。与欧几里得空间相仿,希尔伯特空间也是一个内积空间,其上有距离和角的概念。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

张量网络技术

简单来说,张量网络是通过收缩连接的可数的张量集合。“张量网络方法”是指整个相关领域的工具,在现代量子信息科学、凝聚态物理学、数学和计算机科学中经常使用。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

量子计算技术

量子计算结合了过去半个世纪以来两个最大的技术变革:信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算,某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界,是在通向更强大和有用的计算技术的关键一步。

推荐文章
暂无评论
暂无评论~