「我建议考虑这个问题,『机器能思考吗?』」 英国计算和数学杰出人物艾伦·图灵 (A. M. Turing Mind LIX, 433–460; 1950) 于 1950 年发表了一篇开创性论文。
但作为定义思考含义这一棘手任务的替代方案,图灵提出了一个他称之为「模仿游戏」的场景。一个被称为询问者的人与其他人和计算机进行基于文本的对话。图灵想知道询问器是否能够可靠地检测到计算机,并暗示如果不能,那么可以认为计算机正在思考。该游戏激发了公众的想象力,并被称为图灵测试。
尽管这个想法经久不衰,但该测试在很大程度上被认为过于模糊——而且过于关注欺骗,而不是真正的智能行为——无法成为人工智能(AI)的严肃研究工具或目标。但语言在评估和创造智力方面可以发挥什么作用的问题在今天比以往任何时候都更加重要。这要归功于被称为大语言模型(LLM)的人工智能系统能力的爆炸式增长,它们是 OpenAI 的 ChatGPT、微软的 Bing Chat 和谷歌的 Bard 等众多聊天机器人背后的技术。正如「大语言模型」这个名字所暗示的那样,这些工具纯粹基于语言。
具有一种怪异的人性,有时令人愉快的对话技巧,以及一系列其他能力,包括论文和诗歌写作、编码、通过严格的考试和文本摘要——这些机器人引发了人们对人工智能及其崛起对人类意味着什么的兴奋和恐惧。但在这些令人印象深刻的成就背后隐藏着一个紧迫的问题:LLM 如何运作?与其他神经网络一样,LLM 的许多行为都是从训练过程中产生的,而不是由程序员指定的。因此,在许多情况下,LLM 的行为方式的确切原因以及支撑其行为的机制并不为人所知——甚至对于他们自己的创造者来说也是如此。
正如《Nature》杂志在专题中报道的那样,科学家们正在将 LLM 的真正能力和驱动它们的潜在机制拼凑在一起。加利福尼亚州斯坦福大学的认知科学家 Michael Frank 将这项任务描述为类似于调查「外星智能」。
正如研究人员所指出的那样,揭示这一点既紧迫又重要。为了使 LLM 能够解决医学和法律等领域的问题并提高生产力,人们需要更好地了解这些工具的成功和失败。这将需要新的测试来提供比现有测试更系统的评估。
轻松通过考试
LLM 会吸收大量文本,并用这些文本来学习预测句子或对话中的下一个单词。这些模型通过反复试验来调整其输出,并且可以通过研究人员的反馈进一步完善这些输出。这个看似简单的过程可以产生强大的结果。与以前专门执行一项任务或具有一项功能的人工智能系统不同,LLM 可以轻松完成考试和问题,其范围之广对于几年前的单个系统来说似乎是不可想象的。
但随着研究人员越来越多地记录,LLM 的能力可能很脆弱。尽管 GPT-4 是 ChatGPT 背后最先进的 LLM 版本,在一些学术和专业考试问题上取得了不错的成绩,但即使问题措辞方式的微小干扰也可能导致模型失效。稳健性的缺乏表明它在现实世界中应用缺乏可靠性。
鉴于这种好坏参半的表现,科学家们现在正在争论 LLM 背后到底发生了什么。一方面,当模型在某些测试中取得成功时,研究人员会看到推理和理解的曙光。另一方面,有些人认为自己的不可靠性表明该模型并不像看起来那么聪明。
人工智能审批
对 LLM 能力进行更系统的测试将有助于解决争论。这些将使人们更深入地了解模型的优点和缺点。与药物获得治疗批准和发现可能的副作用所经历的过程类似,对人工智能系统的评估可以让它们被认为对某些应用是安全的,并可以实现它们可能无法向用户声明的方式。
今年 5 月,由新墨西哥州圣菲研究所计算机科学家 Melanie Mitchell 领导的研究小组报告了 ConceptARC 的创建:一系列视觉谜题,用于测试 AI 系统推理抽象概念的能力。至关重要的是,这些谜题通过 10 种方式测试每个概念,系统地测试系统是否真正掌握了 16 个基本概念(剧透警告:GPT-4 表现不佳)。但ConceptARC只解决推理和泛化的一个方面;需要更多的测试。
论文链接:https://arxiv.org/abs/2305.07141
然而,对药物的信心不仅仅来自于临床试验中观察到的安全性和有效性。了解导致其行为的机制也很重要,这使得研究人员能够预测它在不同情况下如何发挥作用。出于类似的原因,解开 LLM 行为的机制(可以被认为是模型的潜在「神经科学」)也是必要的。
研究人员想要了解 LLM 的内部运作方式,但他们还有很长的路要走。另一个障碍是建立 LLM 的公司缺乏透明度——例如,在透露哪些数据模型是基于哪些数据模型进行训练的。然而,监管机构对人工智能公司的审查正在加强,未来可能会迫使更多此类数据被披露。
在图灵首次提出模仿游戏七十三年后,很难想象人工智能领域面临的挑战比了解 LLM 的优势和劣势以及驱动它们的机制更重要。
相关报道:https://www.nature.com/articles/d41586-023-02366-2