Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

知识计算作者京东商城技术架构原创

倾听用户心声—京东商城智能评价生态的构建

京东商城技术架构部联合商城平台产品部——携手利用知识计算平台-商品知识图谱赋能京东商城评价生态,提升用户在UGC社区的购物体验

今天购物的你看评价了吗?

新发布的小米MIX 2是否依旧是一款女生贴心的暖宝宝,众多国产厂商嘲笑的 iPhone X 刘海屏,用户的真实体验如何;心仪的霓裳羽衣裙,自己穿上到底是买家秀还是卖家秀呢。

电商购物中,面对心仪的产品, 摸不到、试不得,如何挑选到称心如意的那款。这时候评价就起了大作用。高质量、真实的商品体验描述,帮助商家深入了解用户对产品及服务的真实体验,帮助消费者快速甄别产品能否满足自己的需求,挑选到合适的款式。

目前京东每天用户发布的评价超过千万量级,庞大的数据中充斥着众多低质信息。那么对于大量的违法言论、无意义评价如何管控; 优质、精华的高质量内容如何有效的反馈给用户及商家。

关心各位消费者的产品汪和程序猿们掉光了头发,想出了一系列举措实现智能评价生态。下面将通过对四个方面的工作,带大家了解,产品汪和程序猿们都干了啥。

违禁评价的识别

作为实体经济和数字经济深度融合的创新型企业,京东遵循科技引领,正道成功的理念,遵纪守法的宝宝对那些违法国家法律规章的评价最开始进行处理。

基于底层商品知识图谱,我们对于电商违禁文本做了分类梳理的相关工作,积累了包含辱骂、政治、地域歧视、色情、赌博、招聘广告、诈骗等违禁知识。利用深度神经网络等算法学习这些特征,构建了违禁实体识别模型。

这些模型利用商城技术架构部的JDOS容器管理平台轻松一键扩容,目前每天支持多个业务方千万级别的调用量,识别出海量的违禁内容加以屏蔽,保留用户评价中合规的部分,净化UGC评论社区。

低质量评价的折叠

除了上述的违禁内容,评价中还存在千奇百怪的内容。下面小编就从数据库抽取点评论给大家观赏一下。

更多的例子就不举例啦,长期从对UGC内容做知识抽取工作的我已经对咱家文采飞扬的消费者五体投地。对于这些低质量评价,通常乱码型、凑字数型对社区影响较小。部分段子型选手的评价影响较大,一旦被滥用,产生群体效应,会直接攻占一部分商品的评价区,导致用户搜索有价值评论的难度大幅增加。为了节约消费者宝贵的时间,快速选取最适合自己的宝贝,我们对这类文本继续归纳总结成教材,交给CPU、GPU去认真学习,快速上岗,将这些无意义评价折叠,提升评价空间的质量。

差异化的京豆激励措施

区别于其他电商,京东每年为了激励用户发表评价内容,提升生态的构建,每年花费价值数亿人民币的京豆对用户发表评价的行为进行实实在在的激励。但由于没有做差异化的激励措施,很多用户发布上述那些与商品不相关的无意义评价信息,真正发布真实商品感受的用户反而没有得到有效的激励。

欧拉平台依据电商产品的固有属性特征,例如吸尘器具备吸力强弱、运行声音、续航或者电源线长度、外观等特征。我们利用知识图谱的知识进行学习,理解一条评价中包含的信息,同时对维度的描述语义质量计算置信度,得出一条评价的语义价值分。价值得分越高的用户可以得到数倍的京豆激励。

当然我们也做了严格的风控措施,只有高质量原创的文本内容才会获得奖励,否则会降低用户画像中的评价置信度得分和未来的激励系数。

用户观点挖掘及流量运营

欧拉平台赋予评价的不仅仅是文本的语义质量计算,同时还提供了评价语义标签的挖掘。算法模型自动从用户的评价文本中抽取用户对于商品印象有价值的观点。

目前这些标签覆盖了京东90%的SKU,每个SKU下都有着完全由算法抽取和聚类生成的语义标签,辅助用户快速获取自己想要的信息,指导购物行为。

目前商品下的语义标签会根据用户的点击情况动态调整来展现不同维度的描述,接下来我们计划将语义维度用于排序,更多的展示和大众关心维度相关的评价内容,提升用户体验。

结语

近几年,用户对于电商的需求更加个性化,垂直化。社区的运营对用户体验的提升也尤为重要。在后续我们会强化对欧拉平台的建设工作,更好的赋能业务,本期先介绍到这,下期将会选取读者最关心的方面做技术与应用分享。

致谢辛苦熬夜的产品汪和程序猿:

京东商城技术架构部-知识计算部UGC数据挖掘小分队主要负责基于欧拉知识计算平台,进行评论、问答、社区、达人中台的文本语义分析、情感分析、合规检测、商品治理、以及实时用户画像、智能京豆生态体系建设后端的知识抽取,欢迎大家来沟通合作。

关于欧拉平台:欧拉平台是商城技术架构部研发的知识计算平台,欧拉平台以商品知识图谱为核心,涵盖产品、品牌、属性、舆情、百科等主要领域知识,通过知识发现、融合、推理和图数据存储、查询等一系列技术,目前已沉淀上亿知识和相应规则,在堆砌、违禁、滥用、合规、类目错挂、标属不一、重复铺货和社区评价等领域,和商家、用户正面交锋,协助平台生态、产品和运营,有效的管控问题商品和低质评价进入京东生态。

京东商城技术架构部在北京、南京、硅谷均设有技术团队,长期寻觅一流人才,你的加入,将会给我们带来更多精彩。简历投递:sunshanshan3@jd.com

京东
京东

京东是全球最大零售商之一,业务涵盖零售、数科、物流、保险和健康等,公司目标是基于海量数据的挖掘和计算,持续驱动业务增长

专栏二维码
入门知识图谱信息抽取情感分析质控合规语义计算深度学习
4
相关数据
知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~