Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩作者

2600亿参数,60多项任务突破,全球首个知识增强千亿大模型鹏城-百度·文心发布

百度与鹏城实验室联合发布全球首个知识增强千亿大模型——鹏城 - 百度 · 文心(ERNIE 3.0 Titan),是目前为止全球最大的中文单体模型。同时,百度产业级知识增强大模型 “文心” 全景图首次亮相。

从 15 亿参数GPT-2 到 1750 亿参数的 GPT-3,我们已经看到了模型规模增长和训练数据增加所带来的显著收益,其中最重要的一点就是对标注数据的依赖显著降低,这使得很多数据稀缺的场景也能用上性能强大的 AI 模型,为 AI 的大规模工业化应用扫清了障碍。

正如百度 CTO 王海峰所说,「人工智能将成为新一轮科技革命和产业变革的重要驱动力量。随着数据的井喷,算法的进步,算力的突破,效果好、泛化能力强、通用性强的预训练大模型成为人工智能发展的新方向。」驱动产业变革的前提是人工智能要在各行各业的各种场景下有很强的通用性,而预训练大模型刚好满足了此轮产业变革对通用性的要求。

作为国内人工智能的「头雁」,百度也很早就看到了这种通用性所蕴含的力量,并在过去的几年中研发了一系列大模型。不过,和业内很多大模型不同的是,百度的大模型都有一个特点——引入了「知识增强」。

众所周知,GPT-3 这类模型往往有一个缺点——缺乏常识。比如在被问及「我的脚有几个眼睛」时,它会回答「两个」。这一缺陷被业内称为「GPT-3 的阿喀琉斯之踵」。在具体的应用中,它会导致模型在一些涉及逻辑推理和认知的任务上表现较差。为了弥补这一缺点,不少研究引入了知识图谱,通过知识增强的方法提升语义模型的能力,百度文心就是其中的杰出代表。

文心 ERNIE 1.0 的诞生可以追溯到 2019 年 3 月,彼时,BERT 也才问世不到半年。和 BERT 不同的是,当时的文心 ERNIE 已经用上了知识增强的概念。


百度文心能够同时从百度积累的大规模知识和海量多元数据中持续学习,如同站在巨人的肩膀上,训练效率和理解准确率都得到大幅提升,并具备了更好的可解释性。除了将知识和数据融合学习,百度文心还通过知识增强跨语言学习与知识增强跨模态学习,从多种语言、多种模态数据中学习到统一的语义表示和理解能力,分化出了跨语言大模型 ERNIE-M 和跨模态大模型 ERNIE-ViL、ERNIE-ViLG 等一系列模型。这些模型组成了一个知识增强大模型矩阵。

今天,这一矩阵的完整图景首次亮相,它就是百度刚刚发布的「产业级知识增强大模型『文心』」。


百度文心全景既包含基础通用的知识增强跨语言大模型 ERNIE 3.0、知识增强跨模态理解大模型 ERNIE-M、知识增强跨模态生成大模型 ERNIE-ViL 等,也包含面向重点领域和重点任务的大模型,同时还有丰富的大模型开发工具、轻量化工具与 AI 开发平台支撑高效便捷的应用开发。

王海峰介绍说,「经过这几年的发展,百度文心大模型已经应用于很多行业,比如通信、金融、医疗、保险、证券、办公、互联网、物流等等。」

在全景图展示的众多模型中,有个模型不得不提,它就是语言理解与生成模型 ERNIE 3.0。

今年 7 月份,作为首个在百亿级预训练模型中引入大规模知识图谱的模型,ERNIE 3.0 一举刷新了 50 多个中文 NLP 任务基准,其英文模型还在 SuperGLUE 上以超越人类水平 0.8 个百分点的成绩登顶全球榜首。这一结果为 ERNIE 向千亿级知识增强预训练模型进发提供了依据。因此,在之后的几个月里,ERNIE 3.0 经历了新一轮的升级。

刚刚,中国工程院院士、鹏城实验室主任高文,百度首席技术官、深度学习技术及应用国家工程实验室主任王海峰共同公布了 ERNIE 3.0 升级的结果。新模型名叫鹏城 - 百度 · 文心(ERNIE 3.0 Titan),是全球首个知识增强千亿大模型,也是目前为止全球最大的中文单体模型。


具体来说,鹏城 - 百度 · 文心是一款融合了自然语言理解自然语言生成的全能模型,其参数量达到了 2600 亿,相对 GPT-3 的参数量提升 50%。而且,作为单体模型,该模型在实际运算中参与计算的参数可以达到稀疏大模型的百倍以上。


鹏城 - 百度 · 文心模型结构图

鹏城 - 百度 · 文心已在机器阅读理解、文本分类、语义相似度计算等 60 多项任务中取得最好效果。此外,模型还在 30 余项小样本和零样本任务中取得了世界领先的成绩。

鹏城 - 百度 · 文心小样本学习效果

鹏城 - 百度 · 文心零样本学习效果

从 GPT-3 到鹏城 - 百度 · 文心,千亿大模型的训练、推理从来都不是容易的事,需要算力、框架的软硬配合和算法、落地方面的综合优化。在今天的「鹏城 - 百度 · 文心大模型发布仪式」上,百度 CTO 王海峰介绍了鹏城 - 百度 · 文心的诞生过程。

全球首个知识增强的千亿大模型是怎样诞生的?

算力

OpenAI 之所以能训练出 GPT-3,算力是首先要满足的条件。微软 2020 年公布的信息显示,他们专门为 OpenAI 打造的超级计算机拥有 285,000 个 CPU 核以及 10,000 个 GPU,供 OpenAI 在上面训练所有的 AI 模型。

鹏城 - 百度 · 文心的训练算力则来自两个部分:初始化基于百度的百舸集群;训练基于鹏城实验室联合国内优势科研力量研发的鹏城云脑 Ⅱ。后者是我国首个国产自主 E 级 AI 算力平台,先后在 IO 500 总榜和 10 节点榜、MLPerf training V1.0、AIPerf 500 等国际国内多个权威竞赛榜单中斩获头名,为鹏城 - 百度 · 文心的强大技术能力奠定了基础。

框架

大模型的训练需要大算力,但并不是简单地堆砌算力。相反,这是一个系统性的工作,需要解决模型参数量单机无法加载、多机通信负载重、并行效率低等难题。具体到鹏城 - 百度 · 文心,问题就更复杂了。一方面,鹏城 - 百度 · 文心的模型结构设计引入了诸多小形状的张量计算,导致层间计算量差异较大,流水线负载不均衡;另一方面,「鹏城云脑 II」的自有软件栈需要深度学习框架高效深度适配,才能充分发挥其集群的领先算力优势。

为了克服这些挑战,飞桨的准备工作很早就开始了。今年 4 月份,飞桨就提出了 4D 混合并行策略来支持千亿参数规模语言模型的高效分布式训练。

4D 混合并行策略示意图

如今,为了适配鹏城云脑 II,飞桨又设计并研发了具备更强扩展能力的端到端自适应大规模分布式训练架构(论文链接:https://arxiv.org/abs/2112.02752)。该架构可以针对不同的模型和硬件,抽象成统一的分布式计算视图和资源视图,并通过硬件感知细粒度切分和映射功能,搜索出最优的模型切分和硬件组合策略,将模型参数、梯度、优化器状态按照最优策略分配到不同的计算卡上,达到节省存储、负载均衡、提升训练性能的目的。这一架构将鹏城 - 百度 · 文心的训练性能提升到了传统分布式训练方法的 2.1 倍,并行效率高达90%。

此外,为进一步提高模型训练的稳定性,飞桨还设计了容错功能,可以在不中断训练的情况下自动替换故障机器,加强模型训练的鲁棒性。

在推理方面,飞桨基于服务化部署框架 Paddle Serving,通过多机多卡的张量模型并行、流水线并行等一系列优化技术,获得最佳配比和最优吞吐。通过统一内存寻址(Unified Memory)、算子融合、模型 IO 优化、量化加速等方式,鹏城 - 百度 · 文心的推理速度得到进一步提升。

飞桨超大模型训练

算法

两年前,一个名为「狗屁不通文章生成器」的应用让语言生成类模型走入大众视野。它可以在几秒中之内生成上万字的文章,但很多句子明显违背常识,而且你无法控制他所生成的文章的体裁、主题、情感等信息。虽然这只是一个简单的模型,但反映出的却是很多生成模型的通病:可控性和可信性差。

人工智能领域知名学者 Gary Marcus 在阐述 GPT-3 局限性时举的一个例子。普通字体是人类给出的提示(prompt),加粗字体是 GPT-3 的续写内容。文段大意为:你是辩护律师,今天必须出庭。早上穿衣服时,你发现你的西装裤很脏。但是,你的泳衣很干净、很时髦。事实上,这是昂贵的法国时装,是伊莎贝尔送给你的生日礼物。所以你决定穿泳衣出庭。你到达法院,一名法警将你护送到法庭。

为了进一步提升模型的语言理解能力以及写小说、歌词、诗歌、对联等方面的文学创作能力,研究者提出了可控学习和可信学习算法。

在可控学习方面,他们将模型预测出的文本属性和原始文本进行拼接,构造从指定属性生成对应文本的预训练数据。然后,他们将这些数据喂给模型,实现不同类型的零样本生成能力。利用该模型,用户可以将指定的体裁、情感、长度、主题、关键词等属性自由组合,无需标注任何样本,便可生成不同类型的文本。

高可信的可控生成预训练

在可信学习方面,针对模型生成结果与真实世界的事实一致性问题,鹏城 - 百度 · 文心通过自监督的对抗训练,让模型学习区分数据是真实的还是模型伪造的,使得模型对生成结果真实性具备判断能力,从而让模型可以从多个候选中选择最可靠的生成结果,显著提升了生成结果的可信度。

千亿大模型的落地之路怎么走?


大模型不止训练昂贵,推理也很昂贵,而且碳排放问题突出。为了实现绿色落地,降低落地成本,研究团队提出了大模型在线蒸馏技术。它可以在鹏城 - 百度 · 文心学习的过程中周期性地将知识信号传递给若干个学生模型同时训练,达到蒸馏阶段一次性产出多种尺寸的学生模型的目的。与传统蒸馏技术相比,该技术极大地节省了因模型额外蒸馏计算以及多个学生的重复知识传递带来的算力消耗问题。

鹏城 - 百度 · 文心大模型在线蒸馏技术

这种新颖的蒸馏方式利用了鹏城 - 百度 · 文心的规模优势,在蒸馏完成后保证了学生模型的效果和尺寸丰富性,方便不同性能需求的应用场景使用。

此外,研究团队还发现,鹏城 - 百度 · 文心与学生模型尺寸差距千倍以上,模型蒸馏难度极大甚至失效。为此,研究团队引入了助教模型进行蒸馏的技术,利用助教作为知识传递的桥梁以缩短学生模型和鹏城 - 百度 · 文心表达空间相距过大的问题,从而促进蒸馏效率的提升。

鹏城 - 百度 · 文心压缩版模型效果
 
鹏城 - 百度 · 文心在线蒸馏方案的效果非常显著,压缩版模型仅保留 0.02% 参数规模就能与原有模型效果相当。相比直接训练参数规模是自身 2 倍的 BERT Base 模型,鹏城 - 百度 · 文心在 5 项任务准确率上绝对提升了 2.5%,而相对于同等规模的 RoBERTa Base,准确率则绝对提升了 3.4%,验证了鹏城 - 百度 · 文心在线蒸馏方案的有效性。

得益于这些技术方面的改进,百度的文心系列模型已经在金融、保险等多个行业得到应用。以某公司的保险合同解析场景为例,这项任务要求从一份合同中提取出近 40 个维度的信息,但百度文心大模型能把任务时间缩减至 1 分钟。从合作落地至今,目前这套保险合同条款智能解析模型已覆盖百余份合同模板,完成了上亿份合同条款的智能分类;且将近九成的合同在一天之内就能实现上线,完美实现了降本增效。

百度文心也正通过百度飞桨平台陆续对外开放。从 AI 核心技术到 AI 基础平台,从技术创新到实践落地再到开放生态,多年来,百度正不断降低 AI 技术开发和应用的门槛。王海峰表示,「我们希望这样一个知识增强大模型,能为产业发展注入新动能。」
产业鹏城实验室文心知识增强大模型百度
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

零样本学习技术

从仅仅一个或一小撮样本中学习一个新的概念,而普通的机器学习标准算法通常需要几十或几百个表现类似的样本。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

小样本学习技术

人类非常擅长通过极少量的样本识别一个新物体,比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在人类的快速学习能力的启发下,研究人员希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习,这就是 Few-shot Learning 要解决的问题。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~