Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

腾讯QQ浏览器实验室作者

百亿参数、中文NLU能力首次超越人类,QQ浏览器大模型「神舟」登顶CLUE

近日,腾讯 QQ 浏览器实验室研发的预训练模型「神舟」(Shenzhou)在 9 月 19 日的中文语言理解评测 CLUE 榜单上登顶,刷新业界记录,成为首个在中文自然语言理解综合评测数据上超过人类水平的预训练模型。

作为中文语言理解领域最具权威性的测评基准之一,CLUE 涵盖文本相似度、分类、自然语言推理、阅读理解等 10 项语义分析和理解类子任务。QQ浏览器“神舟”模型凭借顶尖的语言理解能力,登顶 CLUE1.0 总榜单 / 分类榜单 / 阅读理解榜,刷新三项榜单世界纪录。总排行榜分数突破 85.88 分,超过人类基准分数0.271。

构建出百亿参数量级的「神舟」1.0 模型

自然语言处理和理解(NLP&NLU)是内容领域的一项核心能力,也是 AI 领域持久不衰的核心方向,应用范围涵盖了搜索、推荐、商业算法以及更多 AI 领域的方方面面。

在当前的学术界和工业界,预训练(pretrain)+ 微调(finetune)+ 蒸馏(distill)应用的模式,已经成了一种新的语义理解范式。BERT 作为预训练的基础模型已经被大量应用在相关算法技术上,在此基础上,拥有一个更好更优质的预训练模型可以为所有的语义理解能力带来更强的天花板。

「神舟」自然语言预训练模型是由腾讯 QQ 浏览器实验室于 2021 年自研的成果。通过联合腾讯 QQ 浏览器搜索和内容算法团队,在 6 月登顶 CLUE 的摩天预训练模型基础上进一步进行了大量创新:引入跨层衰减的 Attention 残差链接算法、并将 instance-wise 的自蒸馏技术引入到预训练模型的训练中,以及自回归的 MLM 训练策略等。同时,在此基础上通过二次预训练的方式进行知识增强,进一步提高预训练模型效果。

大规模深度学习模型的效果在各方面获得了成功,但是训练一个百亿的双向自编码模型一直是一个挑战。「神舟」模型通过 ZeRO 分割方案,将百亿模型分割到 N 张卡上,并结合 FP16 训练、梯度检查进一步降低显存使用。底层通信将 TCP 改为 GPUDirect RDMA 通信,大大提高了通信效率,并进一步通过梯度聚集算法减少通信量。

最终,QQ 浏览器实验室通过业界领先的训练能力,最终训练得到了神舟 - 百亿参数量的双向自编码预训练模型。通过「神舟」预训练的能力,仅需要沿用该范式更新模型,即可在几乎所有的语义类理解任务上提升模型效果,有极大的适用性;其次,「神舟」预训练能力作为多模态预训练的基础,帮助提升多模态预训练的综合效果,提升视频理解多模态预训练的综合效果;同时神舟还基于腾讯现有的中台二次输出,进一步扩大辐射范围。

首个在中文自然语言理解能力上超过人类水平的模型

在英文各类榜单上,机器水平已经超过人类有一段时间。中文作为世界上最大规模又极难的语种,面临很多相比于英文更复杂的语言语境问题,比如切词、词法、句法等层面的差异,语言理解的整体难度更大。业界中文语言理解能力距离人类(HUMAN)仍然一定距离,当自然语言理解能力不断深化并到达人类的水平后,在中文环境下技术就可以完成更多传统意义上只有人类才能完成的工作。

结合结合腾讯 pcg venus 机器学习平台引入大量模型优化和加速算法,「神舟」在之前十亿级别参数量的「小」模型摩天(Motian)基础上,构建了百亿参数的训练能力,结合算法的大量优化,最终得到了这个在中文语言理解表现上业界表现最佳的模型。

为了进一步验证预训练模型的效果,腾讯 QQ 浏览器实验室在中文语言理解测评基准 CLUE 榜单上进行了效果验证,于 2021 年 9 月 19 日登顶 CLUE1.0 总榜单 / 分类榜单 / 阅读理解榜,全部超过人类水平,同时也在 CLUE 1.1 的总榜单 / 分类榜单 / 阅读理解榜均取得了第一的成绩。

当前「神舟」已经在 QQ 浏览器搜索、腾讯看点信息流、QQ 浏览器小说场景下支持了几十个语义类算法应用,在多业务场景中取得明显收益;同时也基于腾讯搜索中台和大内容中台场景,辐射至腾讯新闻、视频、微视等腾讯 PCG 业务场景。

刷新 27 个 NLP 基准任务

基于「神舟」领先的中文自然语言理解能力,腾讯 QQ 浏览器实验室团队在 27 个中文自然语言公开数据集上取得了最优效果,问题类型覆盖了自然语言的方方面面,包括文档检索、事件抽取、观点抽取、自然语言推断、语义相似度、分类、机器阅读理解、命名实体识别等等。

除此以外,借助「神舟」的预训练模型效果,可以为所有的语义理解能力带来更强的综合效果,包括但不限于以下场景:

  • 行业高效解决方案,比如教育行业的题库理解、车载对话场景等;

  • 辅助标注,在审核、客服、医疗问诊问答等领域,通过语义和知识减少不必要的人工交互和标注;

  • 提升多模态场景的语义,优化多模态对齐效果。

「神舟」预训练数据

「神舟」借鉴了摩天模型的大量基础训练数据,包括企鹅号、小说、各类百科、新闻、社区问答等内容。并在此基础上额外引入了大量互联网网页数据,经过精准清洗优化,在数据量保障的前提下同时避免低质数据导致的模型漂移。

自蒸馏预训练算法

知识蒸馏(Knowledge Distillation)指的是将训练好的教师模型(Teacher Model)的知识通过蒸馏的方式迁移到学生模型(Student Model),以提升学生模型的效果,往往学生模型参数量较小。而与知识蒸馏不同的是,自蒸馏(Self-Distillation)则指的是模型参数量不变,通过自己蒸馏到自己来不断提升自己的效果。

目前在 CV 和 NLP 领域,自蒸馏技术已经得到广泛的应用,并且也验证了其效果的普适性。而在预训练中,标准的自蒸馏技术并没有很好地得到广泛的应用,原因主要在于预训练过程中非常消耗时间和资源,而标准的自蒸馏技术需要经历几次的模型训练、预测和蒸馏过程才能有比较好的效果提升,这非常消耗时间,显然不太适合预训练。

受 ALBEF 的动量蒸馏技术以及 r-drop(ICLR2021) 技术启发,QQ 浏览器实验室团队探索了 layer-wise 和 instance-wise 自蒸馏在预训练模型上的应用,期望在尽量减少时间和资源消耗的情况下,在训练过程中在线进行自蒸馏,达到快速提升模型效果的目的。实验效果证明,两种方式对下游任务都有普适性的提升,其中 instance-wise 自蒸馏效果表现更优,但是对显存的消耗也会较高。

其中下图左为 layer-wise 自蒸馏技术,在训练过程中使用每一层的输出蒸馏最后模型的输出来不断提升模型性能;下图右则为 instance-wise 自蒸馏技术,利用 dropout 的随机性,对于同样的输入可以产出两个不同输出,在线自己蒸馏自己,快速提升效果。

引入知识图谱增强预训练增强知识理解能力

预训练模型对于真实世界的知识理解,需要更多的知识『投喂』,业界对于预训练引入知识也是多有探索。「神舟」同样在知识增强方面做了进一步深度优化:基于搜索构建的知识图谱数据及百科语料,团队尝试了 3 种知识性任务——远监督关系分类、同类实体替换预测和三元组 - 文本 Mask 预测。

下图是 3 个知识性任务的示例,实验表明这 3 种任务均能有效地引入知识,在下游的知识性任务中带来不错的提升。

优化避免参数遗忘

通过知识性任务能够驱动预训练模型学习到相关的参数,但也很容易造成原参数遗忘和模型通用能力的下降。常见的解决参数遗忘的做法是针对输入的知识性语料,训练 MLM 任务和知识性任务。

这种做法虽然减缓了参数遗忘,但由于知识性语料较为单一和规整,引入 MLM 也无法避免模型在通用场景中效果变差。针对这个问题,团队引入了双路语料输入的机制,将通用预训练语料和知识性任务语料组合为双路输入,共享模型 Encoder 参数,进行联合训练。这样做既保证了 MLM 任务的语料输入的多样性,又减少了知识性任务都是较规整的百科语料对模型的影响。

实验结果表明,采用双路输入比只在百科语料中做联合学习在多个下游任务中平均有超过 0.5% 的提升。在引入双路输入后,上面提到的 3 个知识性任务均能给预训练模型在下游任务中带来提升。其中,远监督关系分类、三元组 - 文本 Mask 预测任务能在阅读理解类任务的 EM 指标上上平均提升 0.7%;在自然语言推理类任务上,则有 0.15% 到 0.3% 不等的提升。

结语

当前「神舟」已经逐步应用于 QQ 浏览器的搜索、看点资讯、小说等多个场景。随着神舟的进一步完善和结合业务的实践,也将进一步改造 QQ 浏览器的搜索能力,理解用户表达背后需求,最智能的满足用户意图、深度服务用户。

理论腾讯刷榜CLUE自然语言理解
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

动量技术

优化器的一种,是模拟物理里动量的概念,其在相关方向可以加速SGD,抑制振荡,从而加快收敛

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

关系分类技术

关系分类旨在将文本中给定实体的关系分类为预定义类。

命名实体识技术

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别、命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。

推荐文章
暂无评论
暂无评论~