张倩作者

当AI客服遇上「图文混排」提问,京东给电商AI来了场摸底考试

当买家非要「看图说话」,AI 客服要怎么破?

对于很多人来说,决定自己网购体验的,除了快递的速度,还有AI客服咨询的流畅和智能水平。


随着人机对话技术的发展,越来越多的电商企业开始用 AI 客服来回答用户的问题。虽然AI客服在文本对话中已经可以流畅回应,并切实帮助用户解答问题,但随着图片等多模态信息在对话中越来越频繁地出现,当前的 AI 客服正面临愈发严峻的挑战,不仅要理解文字内容,还要理解图片等多模态内容。AI客服在多模态场景的应用,还需要进一步的技术突破。


为了推动跨模态智能对话与人机交互技术的发展,京东 AI 研究院联合北京智源人工智能研究院在2018年首届任务导向型对话挑战赛、2019年基于知识增强的任务导向型对话挑战赛的基础上,共同举办 2020 年多模态任务导向型多轮对话挑战赛。本次大赛聚焦大规模真实复杂零售场景下多模态人机交互问题,通过打造多模态对话系统提升人机交互的自然度和体验。


这次比赛 5 月 25 日开赛,9 月 15 日截止模型提交,总共历时 17 周,报名参赛选手共 734 人。最终,来自腾讯 AI Lab 的团队脱颖而出,摘得大赛一等奖;来自众多企业、高校、研究机构的团队也在此次大赛中展现出非凡的实力。

前段时间,中国计算语言学大会(CCL 2020)技术评测研讨会智源 - 京东多模态对话挑战大赛任务研讨会在线召开。在此次研讨会上,主办方京东 AI 研究院对本年的对话大赛进行了全方位的回顾与总结,几支获奖团队也受邀分享了此次大赛的比赛方案。

赛题设置和辅助信息

本次大赛考察的是多模态对话场景的问答问题。其中,「多模态」指的是对话 session 中用户提出的问题至少包含一张图片信息。整个场景包含 n 轮对话,参赛者可以拿到用户在此轮对话中提出的问题 Q_n 和此轮对话前 n-1 轮的对话历史信息,然后根据上下文和此轮问题给出通顺、逻辑一致且含有丰富知识的答案,以满足用户期望。最终评测采用自动评测、人工评测与技术方案评价相结合的方式进行。


由于在真实的线上服务场景中,用户发送的是多模态的图文信息,客服一般回复的都是文本信息。所以,本次大赛考察的重点是多模态的上下文语义理解、单模态的文本应答这样一个任务场景。

为了挑战这一难题,大赛构建了 JDDC 2.0 (Jing Dong Dialogue Corpus 2.0) 数据集。该数据集由服饰品类和小家电品类线上金牌客服的含有多模态信息的对话日志组成,是首个中文多模态对话数据集,包含多模态对话 24.6 万段,平均会话长度为 14 轮。

为了使参赛者更方便地使用对话中的图片信息,数据集选取了 5000 段小家电类对话和 5000 段服饰类对话,对其中所包含的图片进行了人工分类打标,共提供了 1.69 万张图片的 58 类标签。

此外,数据集还提供了对话中所涉及的商品知识库信息。整个知识库一共包含商品知识三元组 21.9 万条,其中含商品实体共 3 万多个,分别属于 231 种商品,包含 759 种商品属性关系。商品属性关系准确详尽,不仅包含商品基本属性信息,还包含商品卖点信息,可应用于商品属性应答、商品推荐等场景。


赛题难点

这场比赛的难点体现在多个方面。首先是长尾问题。在电商情景中,用户提出的问题五花八门,非常见问题可能占了很大比例。例如,在一个电磁炉的销售案例中,多数用户会问如何调节功率,但偶尔也有客户会问怎么设置温度。对于这类非常见问题,模型的表现可能不尽如人意。

第二个问题是上下文建模。购物场景中的对话轮次通常比较长,且前后内容相关性很强。如果模型只看当前或近几轮的交互,就会出现逻辑细节上的矛盾。因此,只有有效建模上下文,才能准确表达上下文中的细节信息。


第三个问题是多模态特征提取和融合。多模态特征的提取方式分为很多种,可以利用整张图像提取特征,也可以只利用感兴趣区域(ROI)或图片上的文字。究竟哪种提取方式更有效还是一个需要探讨的问题。提取完成后,我们还要考虑这些特征要怎么与文本模态特征进行融合。

第四个问题是情感交流。在真实的业务场景中,用户可能本身就有一种不满或委屈的情绪,这就需要模型在解决问题的同时还要能够与用户有比较好的情感交流,提供更贴心的服务。

最后一个是决策问题。有些商品不可避免地有些小瑕疵,也不影响使用,一般人工客服都会选择对顾客进行小额经济补偿。如果模型选择每单都让顾客退货的话,就会造成一定的社会资源浪费。这种场景对模型的决策能力提出了很高的要求。


获奖团队解决方案

此次比赛涌现的解决方案利用了当前比较热门的一些技术点,比如对 Transformer、大规模参数语言模型、生成式模型、大规模预训练模型和多模态知识的运用。


在架构方面,优胜团队要么使用基于 Transformer 的语言模型,要么直接使用 Transformer 构建编解码器。由此可见,Transformer 已经取代 RNN 成为自然语言处理最主流的特征抽取器。

在模型规模方面,多个获奖团队选择了 Bert、GPT、UniLM 这样的大规模参数语言模型,利用更多的参数得到更好的对话效果。

在模型类别方面,优胜队伍几乎一边倒地使用了生成式模型,这也说明在语料充足的情况下,各种以 Transformer 为基础的生成模型对话生成的语言流畅程度、应答相关性等方面表现与检索式模型没有区别,甚至会更有优势。

在预训练模型方面,第一名和第四名都使用了大规模数据预训练的 BERT 模型作为基础,这两个模型在人工单项评分中应答的满意率也略高一些,可见大规模预训练模型有助于进一步提升系统性能。

在知识方面,恰当融合多模态知识的参赛模型在某些场景下能够弥补单模态的信息缺失,提供更加满意的答案。

接下来,我们来看一下排名前二的优胜团队的具体解决方案。

腾讯 AI Lab:基于预训练语言模型和结构化知识库的多模态对话生成模型

第一名是来自腾讯 AI Lab 的团队(Arrival),他们构建了「基于预训练语言模型和结构化知识库的多模态对话生成模型」。该方案充分利用对话中的多模态信息与知识信息构建了基于预训练 BERT 的对话生成模型,并取得了良好效果。

方案的第一个阶段是通过领域适应预训练构建一个面向结构化知识库的对话模型,其中涉及知识库预训练、序列预训练、回复预训练等步骤。

第二个阶段是训练出能够同时支持多模态信息和知识信息的生成模型。首先,使用 ResNet 模型抽取图片特征并通过 K-means 实现图片聚类,将图片抽象化为 200 类 token 信息。然后,将这些信息融入先前训练好的面向结构化知识库的对话模型中,通过训练产生能够同时支持多模态信息和知识信息的生成模型



云从科技:基于 GPT 模型的多模态融合方法及系统

第二名是来自云从科技的团队,他们构建了「基于 GPT 模型的多模态融合方法及系统」,使用多模态方式打造 GPT 对话模型。

在该方案中,模型采用上下文串接的方式将对话涉及的商品知识三元组放在对话的开头,作为对话的背景知识。然后,采用 ResNet 模型提取多模态图片中的特征。接下来,利用模型 Embedding 层向量叠加的方式将图片特征与文本特征相融合。最后,将这些融合后的多模态数据输入 GPT 结构为核心实现的编解码一体化模型,完成对话生成任务。


其他获奖团队的解决方案也都有各自的亮点,此处不一一赘述。

除了这些解决方案之外,本次大赛构建的首个中文多模态对话数据集 JDDC 2.0 也将在比赛结束后向公众开放,这些真实零售场景中的脱敏数据对于产学研融合和多轮对话发展将起到重要的推动作用。

为解决真实场景对话的各种挑战,京东 AI 已经连续举办了三届对话大赛,明年也会在同个时间周期举办 2021 年的对话大赛,欢迎各路高手前来 PK。
产业京东多模态学习北京智源人工智能研究院
相关数据
云从科技机构

云从科技孵化于中国科学院,是一家提供高效人机协同操作系统和行业解决方案的人工智能企业,核心团队曾先后7次获得国内外智能感知领域桂冠,并受邀参与了人工智能国家标准、公安部行业标准等26项国家和行业标准制定工作。通过多年技术积累和业务深耕,云从科技在智慧金融、智慧治理、智慧出行、智慧商业领域已逐步实现成熟应用,智慧金融领域已覆盖六大国有银行在内超过400家金融机构,智慧治理领域已服务于全国30个省级行政区,智慧出行领域产品和解决方案已在包括中国十大机场中的九座在内的105座民用枢纽机场部署上线

www.cloudwalk.com/
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

图像提取技术

图像提取包括图像的特征检测和特征提取过程。 特征检测是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征检测的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 特征被检测后它可以从图像中被提取出来。这个过程可能需要许多图像处理的计算机。其结果被称为特征描述或者特征向量。 低层次的特征提取方法包括:边缘检测、角检测、区域检测、脊检测等,还有曲度检测以及运动检测。 高层次的特征提取方法包括:1.固定形状匹配方法如阈值、模板匹配和霍夫变换等;2.灵活变形分析方法。 进一步特征提取与降维有关,常用的降维技术有主成分分析法、独立成分分析法、等距特征映射等。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

特征抽取技术

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型,最简单的模型最有可能是最佳选择(奥卡姆剃刀)。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。 腾讯希望成为各行各业的数字化助手,助力数字中国建设。在工业、医疗、零售、教育等各个领域,腾讯为传统行业的数字化转型升级提供“数字接口”和“数字工具箱”。我们秉持数字工匠精神,希望用数字创新提升每个人的生活品质。随着“互联网+”战略实施和数字经济的发展,我们通过战略合作与开放平台,与合作伙伴共建数字生态共同体,推进云计算、大数据、人工智能等前沿科技与各行各业的融合发展及创新共赢。多年来,腾讯的开放生态带动社会创业就业人次达数千万,相关创业企业估值已达数千亿元。 腾讯的愿景是成为“最受尊敬的互联网企业”。我们始终坚守“科技向善”的初心,运用科技手段助力公益事业发展,并将社会责任融入每一个产品。2007年,腾讯倡导并发起了中国互联网第一家在民政部注册的全国性非公募基金会——腾讯公益慈善基金会。腾讯公益致力于成为“人人可公益的创连者”,以互联网核心能力推动公益行业的长远发展为己任。腾讯公益联合多方发起了中国首个互联网公益日——99公益日,帮助公益组织和广大爱心网友、企业之间形成良好的公益生态,让透明化的“指尖公益”融入亿万网民的生活。

http://www.tencent.com/
聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

对话生成技术

对话生成是能经由对话或文字进行交谈的计算机程序任务。能够模拟人类对话,通常以通过图灵测试为评估标准。

推荐文章
暂无评论
暂无评论~