Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大模型=缸中之脑?通院朱松纯团队剖析AGI关键缺失

“知行合一”:大语言模型距离通用人工智能最欠缺的一步


近期 ChatGPT/GPT-4 系列产品引发全球关注和讨论,以其为代表的大模型在语言方面表现出了一定的通用性,使通用人工智能的概念浮出水面,进入了大众视野。

业界很多人认为大模型是通往通用人工智能的必经之路,然而大模型真的如业界所追捧的一样 “无所不能” 么?以 GPT-4 为代表的大语言模型究竟离通用人工智能还有多远?

北京通用人工智能研究院朱松纯教授团队最新发布了一份针对大模型的技术报告,系统回顾了现有使用标准化测试和能力基准对大型语言模型(LLMs)进行的评估,并指出了当前评估方法中存在的几个问题,这些问题往往会夸大 LLMs 的能力。报告进一步提出通用人工智能(AGI)应具备的四个特征:能够执行无限任务,自主生成新任务,由价值系统驱动,以及拥有反映真实世界的世界模型

研究人员在技术报告中指出,“知行合一”(认识和行动的内在统一)是大模型目前所欠缺的机制,也是迈向通用人工智能的必经之路。研究人员认为,概念的学习依赖于与真实世界的交互,且知识的获取并不完全依赖于被动输入,在新环境中获取知识的关键途径更应该是主动探索和试错而非被动接受。

图片

论文链接:https://arxiv.org/abs/2307.03762

一、大语言模型无异于缸中之脑

缸中之脑是由哲学家 Hilary Putnam 提出的一个著名思想实验,该实验假设人的大脑从身体剥离,放在一个能够维持其机能的营养液缸,由一个超级计算机联结大脑神经元制造出各种幻象,让人觉得一切正常,就像《黑客帝国》所演的那样,那我们该怎么知道自己不是缸中之脑呢?

图片

基于语义学的分析,Putnam 反驳道,当缸中大脑里的人声称自己是 “缸中之脑” 时,缸和脑的所指已经发生了变化。如何理解这一观点呢?举个简单的例子 —— 假设存在一个孪生地球,其居民和我们生活方式、语言均相同,但他们的 "水" 分子组成为 XYZ,与我们的 H2O 不同。尽管这两种 "水" 在外观、用途和名称上无异,且两地居民对 "水" 的心理感知相同,但指向的实质却不同,因此其含义也应有所区别。这也启发研究者从符号落地(symbol grounding)的视角看待大模型。论文认为,大模型无异于缸中之脑,因为大模型本身并不在真实世界中 (living in the world),它无法像人一样实现从” 词语 (word)“到” 世界 (world)“的联结。这一点是由它的内在构造机制所决定的 —— 通过统计建模在大量文本上进行训练,学习文本之间的语言学相关关系,从而根据上个词汇预测下个词汇。

缺乏符号落地使得大模型很容易陷入绕圈圈的境地。研究者尝试给 GPT-4 一个引子,让它跟自己对话,然而在有限回合之后,GPT 就开始重复自己说的话,无法跳脱当下的语义空间。

图片

大模型的 “智能” 与其说是内在的,不如说是人类智能的投影。大模型生成的文本并不先天具有意义,其意义来自于人类用户对于文本的阐释。例如语言学家乔姆斯基曾经尝试挑战语言学界构造了一个符合语法规范但无意义的句子 ——“无色的绿思狂暴地沉睡”(“Colorless green ideas sleep furiously”),然而中国语言学之父赵元任在他的名文《从胡说中寻找意义》中给予了这个句子一个充满哲思的阐释。

二、大模型的局限性

大模型训练数据集的不透明以及人类评估时所采取的指标差异可能使得人类高估了大模型的真正表现。一方面,大模型的训练数据集通常是规模巨大且高度易得的互联网数据,这些训练数据可能会包含后续用于评估的数据集。由于当前我们并不知道 GPT-4 等大模型的训练数据集构成,泛化这一概念变得模糊,即我们无法判断大模型是真的学习到了核心概念,还是仅仅从它的训练产生的 “隐藏记忆” 中进行检索,这种不透明性阻碍了学术界对其公正和可靠的评估。另一方面,有研究发现大模型的涌现能力并非源于模型行为的本质变化,而是由于使用的评估指标导致大模型看起来突然变得很强大。简单地说,在使用非线性度量(如 X 的 n 次方)时,曲线上稀疏的采样点可能让人感觉到存在某种涌现现象,然而如果换成线性度量,这种现象就不存在了。

在回顾了数十篇大语言模型的评估研究后,研究人员发现:

1)虽然某些研究声称大语言模型能够在标准化测试(SAT,LSAT)中取得超越普通人类考生的卓越成绩,但一旦引入非英语的其他语言同类型测试,比如中国高考、印度升学考试、越南高考时,GPT 的表现显著下降,且其在需要应用推理的考试(数学、物理等)的成绩显著低于强语言依赖学科(英文、历史)的考试。GPT 的表现看上去更像是采取了一种题海战术,通过重复的记忆来做题,而非习得了如何进行推理。

图片

2) 大语言模型的数学推理能力仍然有待提高。Bubeck 等人(2023)在《Sparks of Artificial General Intelligence》这篇文章中采取了单个案例展示的方式尝试说明 GPT-4 能够解决 IMO 级别的问题,但研究者在仔细检视了 GPT 所提供的解决方案发现 Bubeck 等人的结论具有很强的误导性,因为测试的题目被极大程度地简化了,在让 GPT-4 解决 IMO 数学题原题时, GPT-4 的数学逻辑链条是完全错误的。另有研究发现,在 MATH 训练数据集上,即使把模型设置为 MathChat 的模式,其准确率也只有 40% 左右。

3)大语言模型的推理与其说是来自于理解逻辑关系,不如说是来自于大量文本的相关性。朱松纯团队的另一篇研究发现,一旦将自然语言替换为符号,大语言模型在归纳、演绎、溯因任务上表现骤降,无论是否使用思维链(thought of chain)的策略。

一个简单的例子如下图所示:图左用动物(熊、狗、牛等)生成了一系列陈述(比如 “熊喜欢狗”、“牛的属性是圆”、“如果某个动物的属性是圆,那么他们喜欢松鼠”),而后给 GPT-4 一个新的陈述(比如 “牛喜欢松鼠”)让其判断正确与否,研究者发现当把具有明确语义的词汇替换成抽象符号时,(比如用 e4 替代熊,e5 替代狗,e2 替代圆),大语言模型的表现将会显著下降。另一个对大模型的因果推断能力的研究揭露了相似的发现 —— 当将大模型的语义转化为符号时,大模型的表现将下降到几乎同随机回答无异,哪怕在微调之后,大模型也只能应对之前出现过的类似的符号表达,而无法泛化到新场景中。

图片

4)大模型做不好抽象推理,当面对那些仅依赖于几个小样本演示从而找到潜在规律的任务时,大模型的表现较为一般。如下图所示,在瑞文测试数据集(RAVEN) 中,测试者需要根据已有的 8 个图形(形状、颜色、数量、大小)寻找暗含的规律,然后推理出最后一个图形。

图片

另外一个例子来自于 Evals-P 数据集,如下右图所示,大模型需要能够在缺少大量训练样本的前提下找到出现 foo 或者 bar 的规律,即当首字母包含在之后的字符串里时是 foo,不包含时为 bar。对于某些大模型,这些任务的准确率接近于 0,而哪怕 GPT-4 的准确率也只有 30% 左右。

图片

三、关于通用人工智能的一种观点

判断 “某某某 AI” 是不是通用人工智能的一个前提是得清楚通用人工智能的定义或者基本特征,朱松纯团队尝试刻画出了通用人工智能(AGI)的四个特征:

1.能够执行无限的任务;

2.能够自主生成新任务;

3.由价值系统驱动;

4.拥有反映真实世界的世界模型。


首先,智能体应具备在物理和社会环境中完成无穷任务的能力。如果设定一个表示达到 AGI 的任务数量阈值,那么如何确定这个阈值将始终是一个值得质疑的问题。如果智能体在完成 N 个任务后没有展现出通用智能,我们就没有理由相信它在完成第 N+1 个任务后会突然拥有通用智能。虽然一系列具体而具挑战性的任务清单对于评估智能体的性能有所帮助,类似于教师用学生的考试分数来评估他们的学习成绩,但仅仅完成具体任务并不等同于拥有通用智能,这就像不能仅凭学生的分数判断他们真正的学习能力一样。此外,无穷任务并不意味着智能体需要像超人一样无所不能,而是指通用智能体应能够在特定环境中自主生成新的任务,这与学生学会自我学习相仿。

智能体生成新任务需要两个基本机制。首先,智能体需要一个驱动任务生成的引擎。例如,达尔文的进化论揭示出生存和繁衍这两个本能,它们被编码在我们的基因中,而人类的进化过程丰富了价值系统,出现了各种各样的细分价值,如利他主义、诚实和勇气等,每个人都受到一个由其与现实世界持续互动塑造的复杂价值系统的驱动。同样的,我们可以应用这种价值系统的概念来构建通用智能体,在这种情况下,人类可以通过调整智能体的价值函数来影响其行为,而无需预先定义详细的任务步骤。其次,智能体需要一个包含真实世界中物理法则和社会规范的世界模型,来指导智能体和真实世界的交互。这就像一个玩乐高,世界模型包含了各种积木(物体表征)以及积木之间的连接方式(物理法则和因果链等)。然而,价值函数在所有可能的选项中选择了一种蓝图,比如拼一个城堡,驱动智能体去执行任务,在乐高城堡搭建的过程中,智能体需要根据当前的进度,选择合适的积木并将其正确地放置在相应的位置(自我生成新任务)。

四、“知行合一”

王阳明曾说,知而不行,只是未知。为了解决符号落地并且诞生具有上述特征的通用人工智能,仅依赖于知识是远远不够的,整合知识和行动是必须的。此时,智能体不仅能够通过主动地行动来生成对于现实世界物体的更加完整的表征,比如整合了视觉、触觉、听觉等信号,更重要的是能够通过探索环境生成知识,并进一步泛化到新场景中。

其一,人对于世界的理解是建立在和真实世界交互中的。符号(语言、数学符号等)只是概念的指针,只有多模态的交互信号才能真正建立概念表征。仅停留在文本空间上的大语言模型虽然能够生成符号,但无法实现理解符号所指向的概念。如同一个蚂蚁意外的行动轨迹构成了一个 “○”,但蚂蚁本身并不理解圆形意味着什么。

其二,知识并非是先天存在的,知识和行动之间有着内在的联系。人类对世界的深刻理解并非来自于简单地阅读手册,而是通过自己亲身探索或者来自于他人探索的传递等反复的试错积累而来。在这里,知识体现了人与世界交互的能力(比如推理,问题解决,社会理解),但如果模型只是被动地接受知识并通过统计模型生成内容,无异于一个压缩了大量知识的百科全书,但却无法在新环境中通过探索世界进行新的知识生产( 包括知识抽象、知识积累和知识迁移等过程)。

五、总结

研究团队提出的大模型技术报告为接下来的人工智能研究提供了一些潜在的研究方向:

  1. 建立透明的评估机制和评估系统;
  2. 创造具有丰富可供性(大量交互可能性)的仿真环境;
  3. 探索一套 “知行合一” 的认知架构,从 “纯数据驱动” 的范式向 “任务驱动” 的范式转变。
理论大模型
相关数据
朱松纯人物

朱松纯是全球著名计算机视觉专家,统计与应用数学家、人工智能专家,现任美国加州大学洛杉矶分校 [UCLA] 统计系与计算机系教授,UCLA计算机视觉、认知、学习与自主机器人中心主任。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语义学技术

语义学,也作“语意学”,是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性,但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

因果推断技术

因果推断是基于效应发生的条件得出关于因果关系的结论的过程。因果推理和关联推理之间的主要区别在于,前者分析了原因发生变化时效应变量的反应。事情发生的科学被称为原因学。Causal Inference是Causal reasoning一个例子。

推荐文章
暂无评论
暂无评论~