Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

OpenAI工程师必备经典《苦涩的教训》,原来20多年前就有了原型

大量数据学习涌现出来的能力,终于超越了人们的想象。

OpenAI 推出视频生成模型 Sora 已经一周的时间了,热度不减,作者团队还在持续放出让人眼前一亮的视频。比如「一群爱冒险的小狗探索天空废墟的电影预告片」,Sora 一次生成并自己完成剪辑。当然,一个个生动、逼真的 AI 视频让人们好奇为什么是 OpenAI 率先打造出了 Sora 并能够跑通所有 AGI 技术栈呢?这一问题在社交媒体上引发了热烈的讨论。

图片

其中,在一篇知乎文章中,加州大学伯克利分校计算机科学博士、作者 @SIY.Z 分析了 OpenAI 成功的一些方法论,他认为 OpenAI 的方法论就是通往 AGI 的方法论,并且该方法论构建在几个重要的「公理」之上,包括了 The bitter lesson、Scaling Law 和 Emerging properties。

图片

                                  知乎原贴:https://www.zhihu.com/question/644486081/answer/3398751210?utm_psn=1743584603837992961

其中 The bitter lesson 源自机器学习先驱 Rich Sutton 在 2019 年的一篇经典文章《苦涩的教训》, 通过探讨人工智能近几十年所走过的弯路,他抛出的核心观点是:人工智能如果想要长期获得提升,利用强大的算力才是王道。这里的算力隐含了大量的训练数据和大模型。

图片

原文链接:http://www.incompleteideas.net/IncIdeas/BitterLesson.html

因此,作者 @SIY.Z 认为某种意义上,强大算力加持的通用 AI 算法才是 AGI 路径的王道和 AI 技术真正进步的方向。有了大模型、大算力和大数据,The bitter lesson 构成了 AGI 的必要条件。再加上 Scaling Law 这一充分条件,通过算法使大模型、大算力和大数据获得更好的结果。

无独有偶,本周被疯传的 OpenAI 研究人员 Jason Wei 的每日工作时间线中也提到了 Rich Sutton 的 The bitter lesson。由此可见,很多业内人士将 The bitter lesson 视为圭臬。

图片

                              来源:https://twitter.com/_jasonwei/status/1760032264120041684

与此同时,在另一个关于「大语言模型(LLM)是否可以作为自身结果的验证者」的讨论中,有人认为 LLM 验证自身结果时根本不够准确,并且会导致性能更差(还需要为 API 付出很多代价)。

图片

                                   来源:https://twitter.com/curious_vii/status/1759930194935029767

对于这一观点,又有推特网友在 Rich Sutton 二十多年前的一篇博客中有了重要的发现。

图片

原文链接:http://incompleteideas.net/IncIdeas/KeytoAI.html

博客中是这样说的:

考虑到任何 AI 系统以及它所拥有的知识,它可能是一个专家系统或者像 CYC 这样的大型数据库。或者它可能是一个熟悉建筑物布局的机器人,或者了解在各种处境下如何做出反应。在所有这些情况下,我们可以问 AI 系统是否可以验证自己的知识,或者是否需要人们干预来检测误差和不可预见的交互,并进行纠正。在后者这种情况下,我们永远无法建立真正庞大的知识系统。它们总是脆弱且不可靠的,并且规模仅限于人们可以监控和了解的范畴。

没想到,Rich Sutton 进行了回帖,表示这篇写了一半的博客是 The bitter lesson 的原型。

图片

                                 来源:https://twitter.com/RichardSSutton/status/1760104125625459171

其实,在 OpenAI 刚发布 Sora 不久,就有很多人意识到了 The bitter lesson 发挥了重要作用。

图片

还有人将 The bitter lesson 与 Transformer 论文 Attention is All You Need 并列看待。

图片

                                 来源:https://twitter.com/karanganesan/status/1759782109399662777

文章最后,我们回顾一下 Rich Sutton 的《苦涩的教训》全文。

70 年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最有效的方法。这个归摩尔定律解释,或者它对每单位计算成本持续指数级下降的概括。大部分 AI 研究都是在认为智能体可用的计算为恒定的情况下进行的(在这种情况下,利用人类知识是提高性能的唯一方法),但是,在比典型研究项目稍长的时间尺度内,我们不可避免地会需要大量的计算。

要在短期内有所提升,研究人员要利用专门领域的人类知识。但如果想要长期的获得提升,利用计算能力才是王道。这两者本无需对立,但实际上它们往往如此。花时间研究一个,就会忽略另一个。利用人类知识的方法容易复杂化,导致其不太适合利用计算的方法。很多例子表明 AI 研究人员对这些教训的认识太晚,因此我们有必要回顾一些突出的例子。

在计算机国际象棋中,1997 年击败世界冠军卡斯帕罗夫的方法基于大量深度搜索。当时,大多数 AI 计算机象棋研究人员沮丧地发现了这一点,他们的方法是利用人类对象棋特殊结构的理解。当这个利用硬件和软件的基于搜索的更简单方法被证明更有效时,这些基于人类知识的象棋研究人员却仍不肯认输。他们认为虽然这个「暴力」搜索方法此次赢了,但它并不是一个普遍的策略,无论如何它不是人类下国际象棋的方法。这些研究人员希望基于人类输入的方法获胜,但结果却令他们失望了。

计算机围棋中也有类似的研究进展模式,只是晚了 20 年。最初研究人员努力利用人类知识或游戏的特殊性来避免搜索,但所有的努力都被证明没什么用,因为搜索被大规模地有效应用。同样重要的是利用自我对弈(self play)来学习一种价值函数(就像在很多其他游戏甚至国际象棋中一样,虽然在 1997 年首次击败世界冠军的比赛中没起到什么作用)。通过自我对弈学习和一般学习有点像搜索,因为它能让大量的计算发挥作用。搜索和学习是人工智能研究中利用大量计算的两种最重要技术。在计算机围棋中,就像计算机国际象棋中一样,研究人员最初是想通过人类理解(这样无需太多搜索)来实现目的,只是在后来,通过搜索和学习才取得了巨大成功。

语音识别领域,早在上世纪 70 年代就有一个由 DARPA 赞助的竞赛。参赛者利用了很多利用人类知识的特殊方法:单词、因素和人类声道等。另一方面,还有人利用了基于隐马尔可夫模型的新方法,这些方法在本质上更具统计性,计算量也更大。同样,统计方法战胜了基于人类知识的方法。这导致了自然语言处理领域的重大改变,过去几十年来,统计和计算在该领域逐渐占据主导地位。深度学习最近在语音识别中的兴起正是朝着这一方向迈出的最新一步。

深度学习方法更少依赖人类知识,使用更多的计算,并且伴有大量训练集的学习,从而生成更好的语音识别系统。就像在游戏中一样,研究人员总是试图令系统按照他们的思维方式进行运作 —— 他们试图将知识放在系统中 —— 但事实证明,最终结果往往事与愿违,并且极大浪费了研究人员的时间。但是通过摩尔定律,研究人员可以进行大量计算,并且找到一种有效利用的方法。

计算机视觉领域存在相似的模式。早期方法认为视觉是为了搜索边缘、广义圆柱体或者取决于 SIFT 特征。但是今天,所有这些方法都被抛弃了。现代深度学习神经网络仅使用卷积和某些不变性的概念即可以取得更好的效果。

这是一个非常大的教训。因为我们还在犯同一类错误,所以依然未能彻底了解人工智能领域。要看到这一点并且有效地避免重蹈覆辙,我们必须理解这些错误为何会让我们误入歧途。我们必须吸取惨痛的教训,即从长远看,固守我们的思维模式是行不通的。痛苦的教训基于以下历史观察结果:

  1. AI 研究人员常常试图在自身智能体中构建知识,

  2. 从短期看,这通常是有帮助的,能够令研究人员满意,

  3. 但从长远看,这会令研究人员停滞不前,甚至抑制进一步发展,

  4. 突破性进展最终可能会通过一种相反的方法 —— 基于以大规模计算为基础的搜索和学习。最后的成功往往带有一丝苦涩,并且无法完全消化,因为这种成功不是通过一种令人喜欢、以人为中心的方法获得的。

我们应该从痛苦的教训中学到的一点:通用方法非常强大,这类方法会随着算力的增加而继续扩展,即使可用计算变得非常大。搜索和学习似乎正是两种以这种方式随意扩展的方法。

图片

                               强化学习教父 Richard S. Sutton,现任加拿大阿尔伯塔大学教授。

我们从痛苦的教训中学到的第二个普遍观点是,意识的实际内容是极其复杂的;我们不应该试图通过简单方法来思考意识的内容,如思考空间、物体、多智能体或者对称性。所有这些都是任意的、本质上复杂的外部世界的一部分。

它们不应该被固有化,其原因是复杂性是无穷无尽的;相反,我们只应该构建可以找到并捕获这种任意复杂性的元方法。这些方法的关键在于它们能够找到很好的近似值,但对它们的搜索应由我们的方法完成,而不是我们自己。

我们希望 AI 智能体可以像我们一样发现新事物,而不是重新找到我们所发现的。在我们发现的基础上构建只能令人更加难以看清发现过程的完成情况。

产业SoraOpenAI
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

隐马尔可夫模型技术

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

知乎机构

知乎,中文互联网综合性内容平台,自 2010 年成立以来,知乎凭借认真、专业、友善的社区氛围,独特的产品机制,以及结构化、易获得的优质内容,聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群,已成为综合性、全品类,在诸多领域具有关键影响力的内容平台。知乎将AI广泛应用与社区,构建了人、内容之间的多元连接,提升了社区的运转效率和用户体验。知乎通过内容生产、分发,社区治理等领域的AI应用,也创造了独有的技术优势和社区AI创新样本。

zhihu.com
围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

推荐文章
暂无评论
暂无评论~