知识计算作者京东商城技术架构原创

类目魔方—京东商城商品类目治理的智能助手

京东商城技术架构部联合商城平台生态部、各事业群 ——携手利用知识计算平台-商品知识图谱赋能京东商城商品类目治理,提升商家和用户体验

随着京东电商业务的不断发展,线上在售商品数量早已远远超出10亿量级,并且每天都存在数百万的商品上新,特别是在618和双11前夕更是高达千万级。因为第三方POP商品上新没有人工审核环节,商会有意、无意地将商品发布到错误类目,更有甚者,部分商家采用批量上新和批量搬家工具,导致大规模错挂商品的出现,不断冲击着商品生态防线,影响用户购物体验,并带来了诸如食品、药品和成人用品等相关的一系列监管风险。

--类目魔方,让商品错挂治理更高效--

如何在数十亿的商品池中发现错挂商品,过去业务人员通常采用人工排查的方法,不仅需要投入大量的人力、物力,而且治理效率极为低下。

面对海量级的商品数据和高达上千个类目的商品层级分类体系,如何才能有效判别商品类目挂靠的正确与否,实现全方位和高效的监控。类目魔方应运而生,它采用深度学习文本分类模型,将类目转化为分类目标,以商品标题作为输入,通过分类模型,得到商品预测类目,辅之以商品原始的类目挂靠信息进行错挂判别,支持每天全量、增量扫描商城主要类目全部上柜在售商品,按不同的错挂等级统计类目和店铺的错挂情况,标签化明细,并对商家提供挂靠信息反馈。

系统今年5月上线以来,已在清源计划、滤镜商品清理和乱发成人用品等多个商品基础信息治理和监管项目中得到应用,辅助业务部门累计清理错挂商品SPU高达650万+,涉及6900万+SKU,处罚5000+商家,使商品错挂治理告别人工进入智能阶段,治理效率有了质的飞跃。图1为京东商城技术架构(TIG)-类目魔方系统。 

图1 类目魔方系统

--策略创新,多算法融合并用--

在商品类目预测这个问题上,很多电商公司在过去的10年里一直在不断探索和改进,公开资料显示,电商巨头eBay先后采用了传统的规则和统计等模型、如KNN、KNN+SLM和DNN几种方法,准确率从最初的50%一步步提高到了90%+。同时,国内友商在这个问题上,也有采用类似深度学习模型解决商品类目预测问题的尝试。

根据一段商品标题文字预测商品类目,难点在于商品分布极不平衡、分类层级复杂且商品类目繁多、短文本建模以及产品词、品牌词堆砌、重复等。为了克服以上难题,我们制定了如下模型策略:在文本表达方面,将训练数据、测试数据合并一起训练并构建词向量,得到低维、稠密的潜在语义空间表示;在商品类目标签数据不平衡方面,尝试升降采样、数据增强等策略;在处理商品分类层级混杂问题时,首先根据训练集数据标签抽取出类目树,按照类目层级构建N份样本数据集,用多种分类算法各自训练出对应不同层级的分类模型并结合现有类目体系进行路径搜索,图2是基于树搜索的商品标题分类深度层次模型。

图2 基于树搜索的深度分类模型

每个模型在召回率和准确率方面都各自的优缺点,为了保证模型结果的准确率,在允许牺牲小部分召回的情况下,我们采用了多模型融合策略。最终的实验结果表明,相比于单纯采用FastText模型,多层级模型融合得到的F1评分值可以从0.82提升至0.84,提升了近2个百分点,图3为多模型融合的训练和预测计算流程。

图3 多模型融合的训练和预测计算流程

基于以上应用实践,京东商城技术架构-知识计算部参加了信息检索顶级会议SIGIR的2018全球电商商品分类竞赛,通过对算法和方案的改进,获得了top3的名次。相关论文(Multi-level Deep Learning based E-commerce Product Categorization),被SIGIR 2018同步接受并在网上公示。

--追求卓越,类目魔方一直在前进--

       在实际应用中,我们也发现了基于算法的模型暴露出的种种不足,主要为:

       1. 模型训练需要收集大量标注样本;

       2. 样本收集不是一件轻松事,样本的覆盖范围有限;

       3. 每隔一段时间类目都有变化,少则几个,多则几十上百个。每次类目的变化,都需要重新采集样本,训练模型,时间周期较长,成本相对高昂;

       4. 模型优化较为复杂,优化特定的bad case,可能会在其他分类器上带来连锁反应,常常是优化了老问题又产生了新问题。

       如何克服上述种种问题,打造一套能够适应类目频繁变化,更加灵活高效,准确率更高的方法,不仅是学术界和工业界不断研究的课题,也是我们不断探索的方向。近期,我们正在以知识计算平台的商品知识图谱为依托,着力进行类目魔方底层的知识库建设,挖掘类目、产品词、品牌词等关系,尝试以标准化的知识库作为推理媒介,并尝试对抗模型(Generative Adversarial Networks)等前沿的深度学习方法,验证并开发一套全新的分类策略,不断追求“更灵活、更精准、更高效“。

了解更多详情,请联系:京东商城技术架构部-知识计算小组,tig_kc@jd.com

京东商城技术架构部在北京、南京、硅谷均设有技术团队,长期寻觅一流人才,你的加入,将会给我们带来更多精彩。简历投递:sunshanshan3@jd.com

京东
京东

京东是全球最大零售商之一,业务涵盖零售、数科、物流、保险和健康等,公司目标是基于海量数据的挖掘和计算,持续驱动业务增长

专栏二维码
理论自然语言处理文本分类信息检索层次分类深度学习知识图谱
62
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

降采样技术

降采样是数位信号处理领域中的一种多速频数字信号处理(multi-rate digital signal processing)系统中采样率转换(sample rate conversion)技术的一种,或指代用来降低信号采样率的过程,与插值相反——插值用来增加取样频率——降采样通常用于降低数据传输速率或者数据大小。因为降采样会有混叠的情形发生,系统中具有降采样功能的部分称为降频器(decimator)。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

厉害
1