Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Alberto Romero作者

不会太大、密集的纯文本模型,GPT-4的新一波预测来了

分析师 Alberto Romero 对 GPT-4 作出了有理有据的推测。

2020 年 5 月,在 GPT-2 发布一年后 GPT-3 正式发布,而 GPT-2 也是在原始 GPT 论文发表一年后发布的。按照这种趋势, GPT-4 早在一年前就该发布了,但至今尚未面世。

OpenAI 的首席执行官 Sam Altman 几个月前表示即将推出 GPT-4 ,预计将在 2022 年 7 月至 8 月发布。

GPT-3 的强大性能让人们对 GPT-4 的期望颇高。然而关于 GPT-4 的公开信息甚少,Altman 在去年的一次 Q&A 中就 OpenAI 对 GPT-4 的想法给出了一些提示。他明确表示 GPT-4 不会有 100T 参数

图片

正因为 GPT-4 的公开信息很少,人们对其做出诸多预测。现在,一位名为 Alberto Romero 分析师基于其 OpenAI 和 Sam Altman 透露的信息,以及当前趋势和语言 AI 的最新技术,对 GPT-4 作出了一番新的预测,以下是他的预测原文。

模型大小:GPT-4 不会非常大

GPT-4 不会成为最大的语言模型,Altman 曾说它不会比 GPT-3 大多少。它的大小可能在 GPT-3 和 Gopher 之间 (175B -280B)。

这个推测有充分的理由。

Nvidia 和微软去年联合创建的威震天 - 图灵 NLG( MT-NLG)号称是拥有 530B 参数的最大密集神经网络参数量已经是 GPT-3 的 3 倍,而最近谷歌的 PaLM 已有 540B 参数。但值得注意的是,在 MT-NLG 之后出现的一些较小的模型反而达到了更高的性能水平。

图片

这意味着:更大不一定更好。

业内很多公司已经意识到模型大小不是性能的决定因素,扩大模型也不是提升性能的最好方法。2020 年,OpenAI 的 Jared Kaplan 及其同事得出结论:当计算预算的增加主要用于根据幂律关系扩展的参数量时,性能提升幅度最大。

然而,以超大规模的 MT-NLG 为例,它在性能方面并不是最好的。事实上,甚至在任何单一类别的基准测试中都不是最好的。较小的模型,如 Gopher (280B) 或 Chinchilla (70B) 在一些任务上比 MT-NLG 好得多。

显然,模型大小并不是实现更好的语言理解性能的唯一因素。

业内多家公司开始放弃「越大越好」的教条。拥有更多参数也会带来一些副作用,例如计算成本过高、性能进入瓶颈期。当能够从较小的模型中获得相似或更好的结果时,这些公司就会在构建巨大模型之前三思而后行。

Altman 表示,他们不再专注于让模型变得更大,而是让更小的模型发挥最大的作用。OpenAI 是扩展假设(scaling hypothesis)的早期倡导者,但现在已经意识到其他未探索的路径也能改进模型。

因此,GPT-4 不会比 GPT-3 大很多。OpenAI 将把重点转移到其他方面,例如数据、算法、参数化和价值对齐(alignment)等,这可能会带来更显著的改进。关于 100T 参数模型的功能,我们只能等待了。

优化

语言模型在优化方面存在一个关键限制,即训练成本非常高。以至于研发团队不得不在准确性和成本之间进行权衡。这通常会导致模型明显欠优化。

GPT-3 只训练了一次,当在一些用例中出现错误时就要重新进行训练。OpenAI 决定 GPT-4 不采取这种方式,因为成本太高,研究人员无法找到模型的最佳超参数集(例如学习率、批大小、序列长度等)。

高训练成本的另一个后果是对模型行为的分析要受到限制。Kaplan 的团队得出模型大小是提高性能最相关的变量时,他们并没有考虑训练 token 的数量,这需要大量的计算资源。

不得不承认,一些大型公司依照 Kaplan 团队的结论,在扩大模型上「浪费」了数百万美元。现在,以 DeepMind 和 OpenAI 为首的公司正在探索其他方法。他们试图找到最佳的模型,而不仅仅是更大的模型。

优化参数

上个月,微软和 OpenAI 证实用优化后的超参数进行训练,GPT-3 能够获得较大的改进。他们发现 6.7B 版本的 GPT-3 性能大幅提升,可与最初的 13B GPT-3 相媲美。超参数调优带来的性能提升,相当于参数数量增加了一倍。

他们利用一种称为μP 的新型参数化方式,其中小模型的最佳超参数对于同系列的较大模型也是最佳的。因此,μP 能够以一小部分训练成本优化任意大小的模型,几乎毫无成本地将超参数迁移到更大的模型中。

优化计算模型

几周前,DeepMind 重新审视了 Kaplan 等人的发现,并意识到:与人们认为的相反,训练 token 的数量对性能的影响与模型大小的影响一样大。DeepMind 得出结论:计算预算应该平均分配给扩展参数和数据。他们用大型语言模型 4 倍的数据量(1.4T token)训练 Chinchilla(70B)证明了这个假设。

图片

图源:DeepMind

结果很明确,Chinchilla 在许多语言基准测试中「显著」优于 Gopher、GPT-3、MT-NLG 等语言模型,这表明当前的大模型训练不足且规模过大。

根据 DeepMind 的发现,GPT-4 将比 GPT-3 略大,它达到计算最优所需的训练 token 数量将约为 5 万亿,比当前数据集高出一个数量级。为了最小化训练损失,训练 GPT-4 所需的 FLOP 将是 GPT-3 的约 10-20 倍(参照 Gopher 的计算量)。

Altman 曾在 Q&A 中表示 GPT-4 的计算量将比 GPT-3 更大,他可能指的就是这一点。

可以肯定的是,OpenAI 将致力于优化模型大小以外的其他变量。找到最佳的超参数集以及最佳的计算模型大小和参数数量,这可能会让模型在所有基准测试中获得令人难以置信的提升。

多模态:GPT-4 将是纯文本模型

人类的大脑是多感官的,因为我们生活在一个多模态的世界中。一次只以一种模态感知世界极大地限制了人工智能理解世界的能力。因此,人们认为深度学习的未来是多模态模型。

然而,良好的多模态模型比良好的纯语言或纯视觉模型更难构建。将视觉和文本信息组合成单一的表征是一项非常艰巨的任务。我们对大脑如何做到这一点的认知还非常有限,难以在神经网络中实现它。

大概也是出于此原因,Altman 在 Q&A 中也表示,GPT-4 不会是多模态的,而是纯文本模型。我猜测在转向下一代多模态 AI 之前,他们正试图通过调整模型和数据集大小等因素达到语言模型的极限。

稀疏性:GPT-4 将是一个密集模型

稀疏模型利用条件计算,使用模型的不同部分来处理不同类型的输入,近来取得了巨大成功。这些模型可以轻松扩展到超过 1T 的参数 mark 上,而不会导致过高的计算成本,从而在模型大小和计算预算之间构建出正交关系。然而,这种 MoE 方法的优势在非常大的模型上会减弱。

鉴于 OpenAI 一直专注于密集语言模型,我们有理由预期 GPT-4 也将是一个密集模型。

不过,人类的大脑严重依赖于稀疏处理,稀疏性与多模态类似,很可能会主导未来几代神经网络


GPT-4 将比 GPT-3 更加对齐

OpenAI 为解决 AI 价值对齐(alignment)的问题付出了诸多努力:如何让语言模型遵循我们的意图并遵守我们的价值观。这不仅需要数学上让 AI 实现更准确的理解,而且需要在哲学方面考量不同人类群体之间的价值观。OpenAI 已尝试在 InstructGPT 上接受人工反馈训练以学会遵循指令。

InstructGPT 的主要突破在于,无论其在语言基准上的结果如何,它都被人类评估者一致认为是一比 GPT-3 更好的模型。这表明使用基准测试作为评估 AI 能力的唯一指标是不合适的。人类如何看待模型同样重要,甚至更重要。

鉴于 Altman 和 OpenAI 对有益 AGI 的承诺,我相信 GPT-4 将基于他们从 InstructGPT 中获得的发现。

他们将改进对齐模型的方式,因为 GPT-3 只采用了英文语料和注释。真正的对齐应该包含来自不同性别、种族、国籍、宗教等方面的信息特征。这是一个巨大的挑战,朝着这个目标迈出一步将是意义重大的。

综上,我关于 GPT-4 的预测大致包括以下几个方面:

模型大小:GPT-4 会比 GPT-3 大,但不会很大。模型大小不会是其显著特征;
优化:GPT-4 将使用比 GPT-3 更多的计算,它将在参数化(最优超参数)和扩展定律(训练 token 的数量与模型大小一样重要)方面做出新的改进;
多模态:GPT-4 将是纯文本模型,OpenAI 正试图将语言模型发挥到极致,然后再转变成像 DALL·E 这样的多模态模型;
稀疏性:GPT-4 遵循 GPT-2 和 GPT-3 的趋势,将是一个密集模型,但稀疏性未来将占据主导地位;
对齐:GPT-4 将比 GPT-3 更符合人们的价值要求,它将应用从 InstructGPT 中学到的经验。

Alberto Romero 根据 Altman 和 OpenAI 给出的信息作出了有理有据的推测,我们期待这些预测在几个月后即将面世的 GPT-4 中得到印证。

原文链接:https://towardsdatascience.com/gpt-4-is-coming-soon-heres-what-we-know-about-it-64db058cfd45
理论GPT-4
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

推荐文章
暂无评论
暂无评论~