Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

PRO | 为什么基于 MoE 的大模型更值得关注?

2023年,几乎 AI 的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。

多模态趋势下,Transformer 作为 AI 大模型主流架构的局面是否会撼动?为何探索基于 MoE (专家混合)架构的大模型成为业内新趋势?大型视觉模型 (LVM)能否成为通用视觉的新突破?...

我们从过去的半年发布的2023年机器之心PRO会员通讯中,挑选了 10 份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。

本篇解读来自2023年 Week50 业内通讯 👇图片

专题解读 为什么基于 MoE 的大模型更值得关注?

日期:12 月 12 日

事件:Mistral AI 开源了基于 MoE(Mixture-of-Experts,专家混合)架构的模型 Mixtral 8x7B,其性能达到 Llama 2 70B 和 GPT-3.5 的水平"的事件进行延展解读。

首先,弄清楚 MoE 是什么及其来龙去脉

1、概念:
MoE(Mixture of Experts)是一种混合模型,由多个子模型(即专家)组成,每个子模型都是一个局部模型,专门处理输入空间的一个子集。MoE 的核心思想是使用一个门控网络来决定每个数据应该被哪个模型去训练,从而减轻不同类型样本之间的干扰。
2、主要构成:
混合专家模型技术(MoE)是由专家模型和门控模型组成稀疏门控制的深度学习技术。MoE 通过门控网络实现任务/训练数据在不同专家模型间的分配,让每个模型专注处理其最擅长的任务,进而实现模型的稀疏性。
① 在门控网络的训练中,每个样本都会被分配到一个或多个专家中;
② 在专家网络的训练中,每个专家都会被训练以最小化其分配给它的样本的误差。
3、MoE 的「前身」:
MoE 的「前身」是集成学习(Ensemble Learning)。集成学习是通过训练练多个模型(基学习器)未解决同一问题,并且将它们的预测结果简单组合(例如投票或平均)。集成学习的主要目标是通过减少过拟合,提高泛化能力,以提高预测性能。常见的集成学习方法包括 Bagging,Boosting 和 Stacking。
4、MoE 历史来源:
① MoE 的根源可以追溯到 1991 年的论文《 Adaptive Mixture of Local Experts》。这个想法与集成方法类似,目的是为由不同子网络组成的系统提供一种监督过程,每个单独的网络或专家都专门处理输入空间的不同区域。通过门控网络确定每个专家的权重。在训练过程中,专家和门控都会被训练。
② 在 2010 年至 2015 年期间,两个不同的研究领域对 MoE 的进一步发展做出了贡献:
一是专家作为组件:在传统的 MoE 设置中,整个系统包括一个门控网络和多个专家。MoEs 作为整个模型已经在支持向量机高斯过程和其他方法中进行了探索。《Learning Factored Representations in a Deep Mixture of Experts》工作探索了 MoEs 作为更深层网络组件的可能性。这使得模型可以同时变得庞大和高效。
另一个是条件计算:传统的网络通过每一层处理所有输入数据。在这个时期,Yoshua Bengio 研究了根据输入 token 动态激活或停用组件的方法。
③ 由此,人们开始在自然语言处理的背景下探索专家混合模型。在论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中通过引入稀疏性,将其扩展到了一个 137B LSTM,从而实现了高规模下的快速推理。

为什么基于 MoE 的大模型值得关注?
1、通常来讲,模型规模的扩展会导致训练成本显著增加,计算资源的限制成为了大规模密集模型训练的瓶颈。为了解决这个问题,基于稀疏 MoE 层的深度学习模型架构被提出。
2、稀疏混合专家模型(MoE)是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数,而指令调优(instruction tuning)则是一种训练 LLM 遵循指令的技术。
3、MoE+指令微调技术的结合,可大幅度提升语言模型的性能。2023 年 7 月,谷歌、UC 伯克利和 MIT 等机构的研究者发表了论文《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》,证明了混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。
① 具体来说,研究者在一组经过指令微调的稀疏混合专家模型 FLAN-MOE 中,使用稀疏激活 MoE,并用 MoE 层替换 Transformer 层的前馈组件,以提供更优的模型容量与计算灵活性;其次,在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。
② 研究者基于上述方法研究在没有指令调优的情况下在单个下游任务进行直接微调,在指令调优后对下游任务进行 in-context 少样本或零样本泛化,以及在指令调优后对单个下游任务进行进一步微调等三种实验设置下 LLM 的性能区别。
③ 实验结果表明,如果不使用指令调优,MoE 模型的性能通常不如与之计算能能力相当的密集模型。但当结合指令调优时,情况发生了变化。指令调优后的 MoE 模型(Flan-MoE)在多个任务上的表现超越了更大的密集模型,即使 MoE 模型的计算成本只是密集模型的三分之一。与密集模型相比。MoE 模型从指令调优中获得的性能提升更为显著,因此当考虑计算效率与性能时,MoE 将成为大型语言模型训练的有力工具。
4、此次,发布的 Mixtral 8x7B 模型同样采用了稀疏混合专家网络
① Mixtral 8x7B 是一个 decoder-only 的模型。前馈模块从 8 组不同的参数中进行选择。在每一层网络中,对于每个 token,路由器网络选择 8 组中的两组(专家),来处理 token 并将其输出累加组合。
② Mixtral 8x7B 模型在大多数基准测试中均匹配或优于 Llama 2 70B 以及 GPT3.5,推理速度快了 6 倍。

MoE 的重要优势:稀疏性是什么?

1、在传统的密集模型中,对于每一个输入都需要在完整的模型中进行计算。在稀疏混合专家模型中,处理输入数据时只有少数专家模型被激活成者使用,而大部分专家模型处于未被激活状态,这种状态便是「稀疏「。而稀疏性是混合专家模型的重要优点,也是提升模型训练和推理过程的效率的关键。

......

完整版专题解读「为什么基于 MoE 大模型更值得关注?」已上架至机器之心Pro会员收件箱新用户订阅限时特惠,单期低至 2.99 元!

  • Step 1:关注「机器之心PRO 会员」服务号
  • Step 2:进入服务号,点击菜单栏「收件箱」
  • Step 3:进入「收件箱」,点击「参考」板块,畅读往期所有专题解读
理论MOE机器之心Pro
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

高斯过程技术

集成方法技术

在统计学和机器学习中,集成方法使用多种学习算法来获得比单独使用任何组成学习算法更好的预测性能。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

专家网络技术

专家网络建立在专家系统(expert system)的基础之上,它的本质是一个事件驱动性的(event-driven)神经网络。与普通神经网络不同,专家网络的线性和非线性处理更加复杂,因为它以知识库(knowledge base)和推理机(inference machine)为基础。根据知识库构造一个推理网络,用专家系统的推理规则(inference rule)定义网络节点的线性和非线性处理函数。知识库系统的主要工作是搜集人类的知识,将之有系统地表达或模块化,使计算机可以进行推论、解决问题。推理机是由算法或决策策略来进行与知识库内各项专门知识的推论,依据使用者的问题来推得正确的答案。因此,专家网络初始的拓朴结构由知识库确定,网络的动态性则由推理机确定。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~