京东商城背后AI技术揭秘(二)——基于商品要素的多模态商品摘要

过去几十年间,人类的计算能力获得了巨大提升;随着数据不断积累,算法日益先进,我们已经步入了人工智能时代。确实,人工智能概念很难理解,技术更是了不起,背后的数据和算法非常庞大复杂。很多人都在疑惑,现在或未来AI将会有哪些实际应用呢? 其实,关于AI的实际应用以及所带来的商业价值并没有那么的“玄幻”,很多时候就已经在我们的身边。接下来,【AI论文解读】专栏将会通过相关AI论文的解读,由深入浅地为大家揭秘,AI技术是如何对电商领域进行赋能,以及相关的落地与实践。

导言

人工智能技术在电商领域,有着丰富的应用场景。应用场景是数据入口,数据通过技术得到提炼,反过来又作用于技术,二者相辅相成。

京东基于自然语言理解知识图谱技术,开发了商品营销内容AI写作服务。并将此项技术应用到了京东商城【发现好货】频道中。

通过AI创作的数十万商品营销图文素材,不仅填补了商品更新与达人写作内容更新之间的巨大缺口,也提升了内容频道的内容丰富性。

同时,AI生成内容在曝光点击率、进商详转化率等方面其实都表现出了优于人工创作营销的内容。

接下来让我们一起来看看,针对不同群体采用不同营销策略及不同风格的营销文案从而提高营销转化率是怎样通过AI来实现的。

与传统的文本摘要任务相比,商品摘要任务更具挑战性。一方面,商品给顾客的第一印象来自该商品的外观,这对顾客的购买决策有着至关重要的影响。因此,商品摘要系统必须能够充分挖掘商品视觉信息,反映商品的外观特色。另一方面,不同的产品有不同的卖点。例如,紧凑型冰箱的优点是节省空间,而环保型冰箱的优点是节能。因此,商品摘要应该反映商品最独特的方面,从而最大限度地促成消费者的购买。

本文接下来将介绍由京东 AI 研究院提出的一种电商商品的多模态摘要模型,该模型可以有效地整合商品的视觉和文本信息来生成卖点突出、流畅和简洁的商品文本摘要。

论文的标题为 :Aspect-Aware Multimodal  Summarization  for  Chinese  E-Commerce  Products ,发表于 AAAI 2020。

image.png

论文链接:

http://box.jd.com/sharedInfo/2926429040ECC7D3

1、多模态摘要模型

如下图1所示,商品广告含有大量的文字介绍,顾客很难在短时间内在这些广告中获取有价值的商品信息,尤其是当顾客想要比较多个商品时,将会耗费大量的时间,影响了购物体验。商品摘要模型可以为商品生成文本摘要,为潜在消费者提供了短时间内了解商品的便利。从消费者决策的角度出发,一个好的商品摘要需要反映商品的外观特色和卖点信息,这也是本文提出的商品摘要模型的出发点。

image.png

图1

论文提出了一种基于商品要素的多模态商品摘要方法,如图1所示,该模型将商品图像、产品标题和其他产品描述作为输入,生成商品文本摘要。该模型不仅可以有效地整合商品的视觉和文本信息,而且从商品要素出发,使生成的商品摘要尽可能的包含商品的特色要素,并提高商品摘要的流畅性和简洁性。 

论文中构建了一个中文商品摘要数据集,该数据集包含约140万个“商品-摘要”对,涵盖家电、服饰和箱包品类。在该数据集上的实验结果表明,文中提出的模型在自动评价和人工评价指标上都显著优于其他对比方法

2、模型介绍

如图2所示,论文中提出的商品摘要模型基于指针-生成器网络(Pointer-Generator)。采用了三种策略将商品图像信息融入模型中,包括使用商品图片的全局特征初始化编码器,使用商品图片的全局特征初始化解码器,以及使用商品图片的局部特征,通过注意力机制生成图片上下文向量参与解码。

image.png

图2

首先,对商品要素进行建模(所谓的商品要素,就是商品不同方面的属性。例如:对洗衣机而言,商品要素包括容量和能耗等),然后从商品的要素出发,对摘要的重要性、非冗余性和可读性进行建模。

(1)采用基于商品要素的RAML(reward augmented maximum likelihood)训练,鼓励模型生成的摘要涵盖商品的特色要素。如图2(b)所示,该商品ground-truth特色要素是容量、操控与电机,则该模型将会鼓励生成描述容量、操控与电机相关的文本;

(2)采用基于商品要素的覆盖度机制消除冗余信息。传统覆盖度机制仅能在词维度进行去冗余,难以处理相关词冗余问题。如图2(c)所示,“noise”、“quiet”和“tranquil”均在描述“运行声音”这一商品要素,如果仅对“noise”进行去冗余,难以保证“quiet”和“tranquil”不出现摘要中。本文提出的模型通过商品要素维度的去冗余,可以避免“noise”、“quiet”和“tranquil”同时出现在摘要中; 

(3)通过商品要素放回跳机制提高摘要的可读性。如图2(d)所示,商品要素的回跳描述降低了商品摘要的连贯性,影响了消费者的阅读体验。本文提出的模型通过解码时禁用回跳要素词,有效地避免了这一现象。

3、实验结果

如表1所示,本文提出的带有的多模态商品摘要模型,MMPG模型取得了比所有基于纯文本的模型更好的结果,这证明了商品视觉信息和商品要素信息在商品摘要任务中起着重要的作用。

image.png

表1

4、总结

论文提出了一个多模态商品摘要模型,其可以利用商品图像、标题和其他文本介绍,为商品生成摘要。文中提出的模型可以有效地利用商品的视觉信息,并反映商品的特色要素,从重要性、非冗余性和可读性的角度对商品要素进行了有效的建模。

对于电商而言,海量商品的营销内容在由达人供稿的过程中,受限于达人写作的效率限制,商品更新速度明显高于营销内容上线速度,导致内容短缺。

image.png

AI生成内容在生成效率、曝光点击率、订单转化率等方面其实都表现出了优于人工创作营销的内容。该方法正在应用于垂直电商、综合电商、社交电商、新媒体平台等众多场景。

P.S  同时也欢迎对NLP、文本生成和自动文摘感兴趣的小伙伴加入我们。相关信息咨询,可在后台给我们留言哦~

京 东 AI 研 究 院 :

京东AI研究院专注于持续性的算法创新,多数研究将由京东实际的业务场景需求为驱动。研究院的聚焦领域为:计算机视觉自然语言理解、对话、语音、语义、机器学习等实验室,已逐步在北京、南京、成都、硅谷等全球各地设立职场。

京东智联云开发者
京东智联云开发者

京东智联云开发者(JD Cloud & AI Developer)是京东集团旗下为AI、云计算、IoT等相关领域开发者提供技术分享交流的平台。平台将发布产品技术信息、行业技术内容、技术活动及大赛等资讯。拥抱技术,与开发者携手预见未来!

技术分析京东AINLP
2
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东商城、京东金融、拍拍网、京东智能、O2O及海外事业部等。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作,1号店并入京东。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

推荐文章
暂无评论
暂无评论~