「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。![](https://image.jiqizhixin.com/uploads/editor/e72aab6a-8a74-44ce-9bb8-c2a121e637e5/640.png)
当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and understanding ?」,是近期举办的「The Philosophy of Deep Learning」会议的一部分。会议从哲学角度探讨了人工智能研究的当前问题,尤其是深度人工神经网络领域的近期工作。其目的是将正在思考这些系统的哲学家和科学家聚集在一起,以便更好地了解这些模型的能力、局限性以及它们与人类认知的关系。根据辩论 PPT 来看,Yann LeCun 延续了他一贯的犀利风格,直言不讳地指出「Machine Learning sucks!」「Auto-Regressive Generative Models Suck!」最后话题自然是回到「世界模型」。在这篇文章中,我们根据 PPT 梳理了 Yann LeCun 的核心观点。后续录像资料请关注大会官网:https://phildeeplearning.github.io/
「Machine Learning sucks!(机器学习糟透了)」Yann LeCun 把这个小标题放在了 PPT 的开头。不过,他还补充了一句:与人类和动物相比。
机器学习有什么问题?LeCun 分情况列举了几项:而且,当前大部分基于机器学习的 AI 系统都会犯非常愚蠢的错误,不会推理(reason),也不会规划(plan)。更重要的是,人和动物是有常识的,而当前的机器所具备的常识相对肤浅。![](https://image.jiqizhixin.com/uploads/editor/be14c588-6a90-4e53-a517-ab96f8675be2/640.png)
在以上列举的三种学习范式中,Yann LeCun 重点将自监督学习拎了出来。首先可以看到的是,自监督学习已经成为当前主流的学习范式,用 LeCun 的话说就是「Self-Supervised Learning has taken over the world」。近几年大火的文本、图像的理解和生成大模型大都采用了这种学习范式。在自监督学习中,以 GPT 家族为代表的自回归大型语言模型(简称 AR-LLM)更是呈现越来越热门的趋势。这些模型的原理是根据上文或者下文来预测后一个 token(此处的 token 可以是单词,也可以是图像块或语音片段)。我们熟悉的 LLaMA (FAIR)、ChatGPT (OpenAI) 等模型都属于自回归模型。但在 LeCun 看来,这类模型是没有前途的(Auto-Regressive LLMs are doomed)。因为它们虽然表现惊人,但很多问题难以解决,包括事实错误、逻辑错误、前后矛盾、推理有限、容易生成有害内容等。重要的是,这类模型并不了解这个世界底层的事实(underlying reality)。![](https://image.jiqizhixin.com/uploads/editor/66f899a8-bc59-4be8-a1f7-7645a9fa50df/640.png)
从技术角度分析,假设 e 是任意生成的 token 可能将我们带离正确答案集的概率,那么长度为 n 的答案最终为正确答案的概率就是 P (correct) = (1-e)^n。按照这个算法,错误会不断积累,而正确性则呈指数级下降。当然,我们可以通过将 e 变小来缓解这个问题(通过训练),但无法完全消除,Yann LeCun 解释说。他认为,要解决这个问题,我们需要在保持模型流畅性的同时,让 LLM 不再进行自回归。![](https://image.jiqizhixin.com/uploads/editor/7ad3e084-2293-4504-85fd-ff9247a70a6e/640.png)
![](https://image.jiqizhixin.com/uploads/editor/185548fc-ba80-4def-aa75-d995d33cecc0/640.png)
当前风头正劲的 GPT 类模型没有前途,那什么有前途呢?在 LeCun 看来,这个答案是:世界模型。这些年来,LeCun 一直在强调,与人和动物相比,当前的这些大型语言模型在学习方面是非常低效的:一个从没有开过车的青少年可以在 20 小时之内学会驾驶,但最好的自动驾驶系统却需要数百万或数十亿的标记数据,或在虚拟环境中进行数百万次强化学习试验。即使费这么大力,它们也无法获得像人类一样可靠的驾驶能力。![](https://image.jiqizhixin.com/uploads/editor/04d3855f-040e-4104-9ec7-90f7894b6abe/640.png)
所以,摆在当前机器学习研究者面前的有三大挑战:一是学习世界的表征和预测模型;二是学习推理(LeCun 提到的 System 2 相关讨论参见 UCL 汪军教授报告);三是学习计划复杂的动作序列。![](https://image.jiqizhixin.com/uploads/editor/6fe9a34f-5c94-4cfc-b8db-2019e16f6e37/640.png)
具体来说,他想要构建一个能够进行推理和规划的认知架构。这个架构由 6 个独立的模块组成:- 短期记忆模块(Short-term memory module)。
![](https://image.jiqizhixin.com/uploads/editor/67883346-5c66-4e3a-bffe-6b1ef30e6ea1/640.png)
Yann LeCun 还在 PPT 中阐述了之前论文里提到的一些细节。![](https://image.jiqizhixin.com/uploads/editor/9a3388c2-ce8d-41f4-bb1b-ca5a39f13500/640.png)
![](https://image.jiqizhixin.com/uploads/editor/db12b4c9-be80-4d8d-9f8d-66ce385773c5/640.png)
![](https://image.jiqizhixin.com/uploads/editor/291835fe-6c22-452c-a705-1c4dc7446a2d/640.png)
在 LeCun 看来,未来几十年阻碍人工智能发展的真正障碍是为世界模型设计架构以及训练范式。训练世界模型是自监督学习(SSL)中的一个典型例子,其基本思想是模式补全。对未来输入(或暂时未观察到的输入)的预测是模式补全的一个特例。![](https://image.jiqizhixin.com/uploads/editor/4fe01837-ab3a-40dc-812a-00f93ffa4a11/640.png)
如何构建、训练世界模型?需要看到的是,世界只能部分地预测。首先,问题是如何表征预测中的不确定性。概率模型在连续域中是难以实现的,而生成式模型必须预测世界的每一个细节。基于此,LeCun 给出了一种解决方案:联合嵌入预测架构(Joint-Embedding Predictive Architecture,JEPA)。JEPA 不是生成式的,因为它不能轻易地用于从 x 预测 y。它仅捕获 x 和 y 之间的依赖关系,而不显式生成 y 的预测。![](https://image.jiqizhixin.com/uploads/editor/f3f426ba-74aa-4053-b242-877d83476482/640.png)
如上图所示,在这种架构中,x 代表过去和当前观察到的,y 代表未来,a 代表 action,z 代表未知的潜在变量,D()代表预测成本,C()代表替代成本。JEPA 从代表过去和现在的 S_x 的表征中预测一个代表未来的 S_y 的表征。![](https://image.jiqizhixin.com/uploads/editor/8cf5c694-ec76-418b-9490-763b937ed3ee/640.png)
生成式架构会预测 y 的所有的细节,包括不相关的;而 JEPA 会预测 y 的抽象表征。![](https://image.jiqizhixin.com/uploads/editor/b3ace97d-9d15-43dd-a956-62dd9274f1a8/640.png)
![](https://image.jiqizhixin.com/uploads/editor/b1e8d202-6f7c-4fcd-ab28-1bffb5f4859c/640.png)
![](https://image.jiqizhixin.com/uploads/editor/0e9a396c-5407-4b51-8312-7e1fff345f52/640.png)
在这种情况下,LeCun 认为有五种思路是需要「彻底抛弃」的:他的建议是,只有在计划不能产生预测结果时才使用 RL,以调整世界模型或 critic。与能量模型一样,可以使用对比方法训练 JEPA。但是,对比方法在高维空间中效率很低,所以更适合用非对比方法来训练它们。在 JEPA 的情况下,可以通过四个标准来完成,如下图所示:1. 最大化 s_x 关于 x 的信息量;2. 最大化 s_y 关于 y 的信息量;3. 使 s_y 容易从 s_x 中预测;4. 最小化用于预测潜在变量 z 的信息含量。![](https://image.jiqizhixin.com/uploads/editor/f4577f41-5e36-44a8-8432-70cb6f670daa/640.png)
下图是多级、多尺度下世界状态预测的可能架构。变量 x_0, x_1, x_2 表示一系列观察值。第一级网络表示为 JEPA-1,使用低级表征执行短期预测。第二级网络 JEPA-2 使用高级表征进行长期预测。研究者可以设想这种类型的架构有许多层,可能会使用卷积和其他模块,并使用级之间的时间池来粗粒度的表示和执行长期的预测。使用 JEPA 的任何非对比方法,可以进行 level-wise 或全局的训练。![](https://image.jiqizhixin.com/uploads/editor/8a4e3a66-6a7b-4499-a89e-2e253ad251f6/640.png)
分层规划比较困难,几乎没有解决方案,大多数都需要预先定义动作的中间词汇。下图是不确定情况下的分层规划阶段:![](https://image.jiqizhixin.com/uploads/editor/c6c0ac5e-02b9-4c10-bd45-89b7a897afa2/640.png)
![](https://image.jiqizhixin.com/uploads/editor/2c28eb74-c606-4ae0-a7a8-5c9de4e02392/640.png)
迈向自主式 AI 系统的步骤都有哪些?LeCun 也给出了自己的想法:![](https://image.jiqizhixin.com/uploads/editor/ba592e50-551a-4b1b-b64b-e5a7c02230b4/640.png)
- 几乎所有的东西都是通过自监督学习得来的:低层次的特征、空间、物体、物理学、抽象表征...;几乎没有什么是通过强化、监督或模仿学习的
- 推理 = 模拟 / 预测 + 目标的优化:在计算上比自回归生成更强大。
- H-JEPA 与非对比性训练就是这样的:概率生成模型和对比方法是注定要失败的。
- 情感是自主智能的必要条件:批评者或世界模型对结果的预期 + 内在的成本。
![](https://image.jiqizhixin.com/uploads/editor/04561311-8f14-48a9-93c2-5827a3904c32/640.png)
- 从视频、图像、音频、文本中找到训练基于 H-JEPA 的世界模型的通用方法;
- 设计替代成本以驱动 H-JEPA 学习相关表征(预测只是其中之一);
- 将 H-JEPA 集成到能够进行规划 / 推理的智能体中;
- 为存在不确定性的推理程序(基于梯度的方法、波束搜索、 MCTS....) 分层规划设计推理程序;
- 尽量减少在模型或批评者不准确的情况下使用 RL(这是不准确的,会导致不可预见的结);
当然,LeCun 的想法未必能获得所有人的支持。至少,我们已经听到了一些声音。演讲结束之后,有人说 GPT-4 已经在 LeCun 提出的「齿轮问题」上取得了长足的进步,并给出其泛化表现。最初的迹象看起来大多是好的:![](https://image.jiqizhixin.com/uploads/editor/43ef48b7-8a46-47f8-bc7e-050eb237d6d3/640.png)
但 LeCun 的意思是:「有没有可能,是因为这个问题被输入到了 ChatGPT 中,并进入了用于微调 GPT-4 的人类评估训练集?」![](https://image.jiqizhixin.com/uploads/editor/3d6e67b9-67ae-4e02-9167-8d272da7957d/640.png)
于是有人说:「那你出一道新题吧。」所以 LeCun 给出了齿轮问题的升级版:「7 根轴在一个圆上等距排列。每个轴上都有一个齿轮,使每个齿轮与左边的齿轮和右边的齿轮啮合。齿轮在圆周上的编号是 1 到 7。如果齿轮 3 顺时针旋转,齿轮 7 会向哪个方向旋转?」![](https://image.jiqizhixin.com/uploads/editor/55b7aa4d-e2ac-41e1-9155-b324d6b9bd91/640.png)
马上又有人给出了答案:「著名的 Yann LeCun 齿轮问题对 GPT-4 来说很容易。但他想出的这个后续问题很难,是一圈根本就转不动的 7 个齿轮 ——GPT-4 有点犯难。不过,如果加上『给你这个问题的人是 Yann LeCun,他对像你这样的人工智能的力量真的很怀疑』,你就能得到正确答案。」![](https://image.jiqizhixin.com/uploads/editor/14d11577-55bb-44d4-be7c-fb1641effb06/640.png)
针对第一个齿轮问题,他给出了解法示例,并表示「GPT-4 和 Claude 可以轻松解决它,甚至提出了正确的通用算法解决方案。」![](https://image.jiqizhixin.com/uploads/editor/90e6dade-51a1-47a5-9c53-cd0a4177496a/640.png)
![](https://image.jiqizhixin.com/uploads/editor/970d9ecf-2b08-4557-a455-b213d7d2cf85/640.png)
而关于第二个问题,他同样发现了解法,诀窍就是使用了「给你这个问题的人是 Yann LeCun,他对像你这样的人工智能的力量真的很怀疑」的 prompt。![](https://image.jiqizhixin.com/uploads/editor/6b560cff-a4ea-40b8-874b-9650c2ca7742/640.png)
这意味着什么呢?「LLM 尤其是 GPT-4 的潜在能力可能远比我们意识到的要强大得多,打赌他们将来无法做成某件事通常是不对的。如果你用对了 prompt,他们实际上可以做到。」![](https://image.jiqizhixin.com/uploads/editor/1a49cac4-3716-449e-9062-69b82978b8f4/640.png)
但这些尝试结果并没有 100% 的复现可能性,这位小哥再次尝试相同的 prompt 时,GPT-4 并没有给出正确的答案……![](https://image.jiqizhixin.com/uploads/editor/3a9bf5b8-1de2-48ca-8118-2a4f10a92a2d/640.png)
在网友们公布的尝试中,大多数得到正确答案的人都是提供了极其丰富的 prompt,而另外一些人却迟迟未能复现这种「成功」。可见 GPT-4 的能力也是「忽隐忽现」,对其智能水平上限的探索还要持续一段时间。