Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

华为云获得自然语言处理领域顶级赛事NLPCC开放任务第一名

近日,华为云 AI 团队获得第 9 届国际自然语言处理与中文计算会议 NLPCC 2020 轻量级预训练中文语言模型测评第一名。

NLPCC 由中国计算机学会主办,是自然语言处理(NLP)和中文计算(CC)领域的顶级国际前沿会议,每年会议都秉承国际化和一流化的严格标准来进行自然语言处理任务的开放评测,推动相关任务的研究和发展。

NLPCC 2020 吸引了康奈尔大学、伦敦大学、普林斯顿大学等海内外近 600 位自然语言处理领域的专家及学者参加大会,其中 400 余位专家学者在现场共同见证开放评测任务第一名的诞生。

当下,预训练语言模型已经成为 NLP 的主流方法,在多项 NLP 任务上都取得了明显的效果提升。但是预训练语言模型往往比较大,限制了预训练语言模型的应用场景。因此,如何构建轻量级的预训练语言模型就成了一个关键问题。

预训练语言模型出现以来发展得非常迅速,目前已经演化形成了一个家族

中文轻量级预训练语言模型能力评测任务的目的在于让参赛团队减少语言模型大小的同时尽可能保证模型效果。本次比赛包含四个任务,分别是指代消解,关键词识别两个句子级别分类任务,实体识别序列标注任务,MRC 阅读理解任务,从不同角度评测模型的语义表达能力。

同时,比赛要求模型的参数量低于 bert-base 模型的 1/9,模型推理速度达到 bert-base 模型的 8 倍,这就要求模型运行快,体积小,效果好。

一般来说,可以通过量化、剪枝、蒸馏等方法来压缩大预训练语言模型来获得轻量级模型。华为云与诺亚方舟实验室联合团队基于自研的 NEZHA 中文预训练模型通过知识蒸馏得到 tiny-NEZHA 轻量级模型摘得桂冠。

相比其他模型,华为的模型在结构上找到了一个较好的平衡点,采用 TinyBERT 两步蒸馏的方式让模型更好地学到任务相关的知识,蒸馏过程中用语言模型预测并替换部分 token 的方式进行数据增强可以使小模型拥有更强泛化性。

TinyBERT 知识蒸馏损失函数中一个重要环节是让中间层去学习隐藏状态和 attention 向量

同时,华为自研的 NEZHA 预训练语言模型采用相对位置编码替换 BERT 的参数化绝对位置编码,能更直接地建模 token 间的相对位置关系,从而提升语言模型的表达能力。

在即将过去的 2020 年里,华为云 AI 在人工智能领域的研发成绩斐然,斩获十二项包含 WSDM、WebVision、CCKS 篇章级事件抽取技术评测冠军、人工智能金炼奖、德国红点在内的国际国内榜单冠军和奖项。

面向未来,华为云 AI 希望可以继续保持技术优势,做智能世界的「黑土地」,持续践行普惠 AI,将 AI 服务触及更多开发者和企业,助力各行各业进入人工智能新时代。

Powered by Froala Editor

产业华为华为云
相关数据
剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

指代消解技术

在计算语言学中,共参考分辨率是一个在话语中被充分研究的问题。为了得出对文本的正确解释,或者甚至估计各种提到的主题的相对重要性,代词和其他引用表达必须与正确的个体相关联。目的解决指代的算法通常首先查找与引用表达式兼容的最近的一个之前个体。

推荐文章
暂无评论
暂无评论~