知识计算作者京东零售数据中台原创

BERT模型在京东零售业务的应用实践

背景

京东零售是全球最大零售商之一,涵盖线上、线下的实体、虚拟等多元化交易场景。目前每日有效商品数量约30亿,产生相关日志和内容已经达到PB级。在这些海量数据中,有诸多涉及自然语言处理计算机视觉的应用场合,通过算法和数据的驱动,给多场景的用户体验和交易提升带来巨大改善,由于BERT在文本处理任务上的优异表现,我们也将BERT模型在电商文本分类、商品标题的序列标注等任务进行探索,并将相关实践经验进行总结。

BERT模型简介

BERT[1] (Bidirectional Encoder Representation from Transformers) 是Google在2018年10月底公布的基于变换器(Transformer)[2]的深度双向编码文本表示模型,通过模型预训练+任务微调整的方式,在11项NLP基础任务中展现出了卓越的性能,故成为NLP领域大火、整个ML界略有耳闻的模型。BERT的出现,彻底改变了预训练词向量模型框架和下游具体NLP任务的关系,将下游NLP任务重心转移到上游的文本动态表示,通过进一步增加词向量模型泛化能力和动态表达能力,以达到充分描述字符级、词级、句子级甚至句间关系特征的目的。

BERT的整体框架如图1所示:模型架构基于多层双向变换器编码而非Bi-LSTM ,这样可使得模型拥有更深的层数、具有更好并行性。在预训练方法上,选择了Masked LM和Next Sentence Prediction两种损失函数分别捕捉词语和句子级别的语义和句法等特征。

BERT的输入部分是一个线性序列(如图2所示),两个句子之间通过分隔符(SEP)分割,最前面和最后增加两个标识符(CLS)。每个词语有三个Embedding:

① 词语Embedding:词语本身的Embedding;

② 句子Embedding: 由于训练数据都是由句子构成的,那么每个句子对应的句子Embedding给到该句中每个词;

③ 位置Embedding:每个词在该篇语料中对应的位置信息。

将语料中对应的上述三种Embedding叠加,即形成了BERT的输入。

图 2 BERT的输入序列

BERT相较于之前相关模型,其创新之处在于采取了新的预训练的目标函数增加句子级别的任务。前者中,利用随机遮蔽输入中的一些tokens,然后在预训练中通过对它们进行预测,可以让模型融合前后两个方向上的上下文来输出特征,在ELMO[3]的基础上,解决了由于模型层数的加深带来的“目标泄露”,或者叫 “自己预测自己”(“see itself”)的问题;后者中,由于句子与句子之间本不是孤立存在的,以及现存QA和NLI任务都需要对两个句子之间关系进行理解,这种理解方式超越了传统的语言模型。为了理解句子关系,通过预训练了一个“下一句预测”(“Next Sentence Prediction”)任务,也即随机替换一些句子,然后利用上一句进行IsNext/NotNext的预测以达到提取该类句子关系特征。

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
理论无监督预训练语言模型自然语言处理注意力机制深度学习知识图谱BERT
127
相关数据
华为机构

华为成立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。华为的主要业务分布在无线、网络、软件、服务器、云计算、人工智能与大数据、安全、智能终端等领域,发布了5G端到端解决方案、智简网络、软件平台、面向行业的云解决方案、EI企业智能平台、新一代FusionServer V5服务器、HUAWEI Mate等系列智能手机、麒麟系列AI芯片等产品。目前华为拥有18万员工,36所联合创新中心,14所研究院/所/室,业务遍及170多个国家和地区。

http://www.huawei.com/cn
统计自然语言处理技术

基于概率统计领域的理论进行自然语言处理, see NLP

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

自动摘要技术

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东商城、京东金融、拍拍网、京东智能、O2O及海外事业部等。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作,1号店并入京东。

👍
1
太棒了!
2
干货啊……不光有理论还有真正的应用实践!赞一个👍
1
理论结合实践,so nice
1
既有理论,又有实践,写的比较详实,文章不错。
1
厉害了
1
真棒,终于有一篇既能看懂,又能实践的文章了。学习了。👍
1