引入AI客服后,海底捞的逆天服务似乎被拖了后腿

2016 年 8 月,科大讯飞就受海底捞之邀,为其提供 AI+餐饮的解决方案。「小美」就是科大讯飞为海底捞打造的人工智能电话机器人,综合应用了语音识别语音合成、语义理解等人工智能技术,自动完成电话的接听,识别电话中顾客的意图,并自动进行相应的回复和业务处理。

根据科大讯飞提供的数据,目前,每天至少有 5 万个用户体验这款产品。基本上,对于顾客提的相关问题,小美的语音识别、语义理解正确率目前可达 90% 以上。目前,消费者满意度保持在 8.26 分以上(10分制)。

上周,听说给海底捞打电话订餐,接电话的人是机器人。拨通海底捞紫竹桥店的电话后,我第一次接触到小美。

第一遍,好像没那么智能

「欢迎致电海底捞紫竹桥店,我是智能机器人小美,为了保证通话质量,您的电话可能会被录音。请问您是要订餐,还是要其他服务呢?」

电话接通后,一个带着台湾腔、语气客气、温柔的女声从电话那头传来。如果它不自曝,它给人留下的第一印象不会是机器人。

初体验后,我发现,它并不能理解我的所有意思,它要求我的回答要「具体」,比如「具体几月几号」、「具体是要什么服务」,它还中途打断我的话。

当我询问它「我现在所在的地区附近有哪些……」时,「店铺」二字还没出口,就被它打断,「不好意思哦,我还是没有听懂,我让同事帮您处理,请稍等。」

当我因它语速过快,要它再说一遍自己可以提供的服务时,它的语速并没有放缓。
还有让我疑惑的一点,关于用餐时间,我先是回答「3 点钟可以吗」,它没听懂,并问我「准确的时间」;我接着回答「3 点 OK 吗」,它却听懂了。如果是服务员来接电话,肯定能够明白这两种表达其实是同一个意思。但小美听不懂前者,却能听懂后者,这背后的原理是什么?难道是因为确认了关键词是「3 点钟」,并从知识库中找到了答案?

初次体验的总体感觉是,小美并没有那么智能。

第二遍,检验「智商」的时候到了

为了测它的「智商」,我在接下来的几天里与它通了多次电话。对它目前提供的订餐、查询排队情况、咨询门店的位置、查询捞币和优惠信息四种服务,一一进行了体验。

订餐涉及多轮交互,包间还是大厅,订餐日期(需具体),用餐时间(要准确),用餐人数等信息。

查询排队情况,只需打电话过去,不等你开口,小美就会主动告知你排了一个XX号,预计就餐时间,过号的解决办法或者告知你具体等位时间以现场实际情况为准,时间长达近 40 秒。

但是对于排号成功但有其他诉求的顾客而言,必须听小美「自说自话」长达近40秒后才能开口说话,有点遭罪。我曾试图一开始就打断它,说自己要「转人工」;故意在它说话的中途打断它,「别说了,别说了,不想听,我只想订餐」,「转人工」,但都未果。必须等到它结束「自言自语」,主动询问我「有什么可以帮您」时,我才能表达自己的诉求或者申请转人工。

我说我要咨询门店的位置,小美语音告知了我海淀区紫竹桥店所处的位置(因为我拨打的是紫竹桥店的电话),并将具体的地址以短信的形式发送给了我。

我说查询捞币和优惠信息,小美表示,帮我查了一下,具体活动详情请接收短信,点击短信链接查看。我也确实很快就接收到了来自海底捞的短信。

因此,我主要围绕订餐对它的自然语言理解能力进行了测试。

关于订餐日期,我做了多种回复:除了具体的X月X号,小美还可以理解周 X、明天、后天,但无法理解大后天、X 天(之)后。

但无论是修改订餐日期、修改用餐人数,还是修改排号时间,小美都无法理解,也未告知我是否可以修改。直到最近一两次,小美才询问我,是否要修改订单、取消订单,或许是因为我来电频繁?当然,修改订单这件事,它是找同事帮我处理。

(1)修改订餐日期


小美

请问您是要预定 10 号的中午,晚上,还是什么时间呢?

我可以修改一下吗?我想换到后天。

不好意思哦,我是机器人,我没听懂。您可以说,中午或者晚上。


(聊天实录)

(2)修改用餐人数

第一次,当它询问我来电号码是否可以作为联系方式时,我回复,想将人数修改为 3 人。它并未回应我,而是再次问我「来电号码可以作为您的联系方式吗」。第二次,当它询问我是否需要其他帮助时,我再次表达,希望修改用餐人数,但它没听懂,说找人工帮我处理。

小美

请问您是几位用餐呢?

2个人。

请问来电号码可以作为联系方式吗?

稍等一下,可能是3个人。

来电号码可以作为您的联系方式吗?


(第一次聊天实录)

小美

还有其他可以帮您的吗?

我可能是3个人,能换成3个人吗?

不好意思,我没听懂,您具体是要什么服务呢?

我想修改排号……订……用餐人数。

不好意思,我让我同事帮您处理。


(第二次聊天实录)

但我再一次打电话过去,一开始就告诉它我要修改用餐人数时,它回复,找同事帮我处理,便直接转到了人工。

(3)修改排号时间

我告诉小美我要修改排号时间,第一次,它说自己没有听懂,并询问我「具体是要提供什么服务」;第二次,它误以为我是要排号;第三次,它告诉我,我已经排过号,排的号是 XX 号,并说「一个手机号啊当前只能排一次」。从头到尾,它都没有告诉我,是否可以修改排号时间。

科大讯飞来解惑

小美的表现让我怀疑它就是个预设的程序,就连声音也是录制好的。

当我带着一系列疑问去询问科大讯飞时,他们给了我这样的回复:

问:机器人的回答是否是预录好的?

答:「海底捞智能电话机器人小美,是基于科大讯飞语音识别语音合成、语义理解、机器学习等技术,和大量餐饮行业数据和海底捞个性化需求基础上,形成了智能处理模型和智能服务大脑。机器人的回答,由智能服务大脑,进行机器动态 TTS+预合成相结合,智能回答处理。」

问:理解了顾客的问题后,怎么去匹配答案的?是相似度匹配还是利用知识图谱搜索?

答:「理解顾客的问题后,小美基于科大讯飞深度学习模型和知识图谱融合算法,根据交互场景构建定制化知识库,利用真实数据,通过规则、模型等方式,让小美持续进行多层次深度学习,通过多轮对话及意图识别,语义相似度计算,给出最优答案。」

问:机器人的回答中,根据问题库(相似度)匹配答案与自动生成答案的比例是多少?问题库中有多少条问答?可举例说明,一个语义预设了多少种问法?两年前就和海底捞合作了,小美是否经历过迭代?现在是第几代?与两年前相比,技能(或表现)有了哪些提升?

答:「迭代和知识库具体方面,涉及内容目前还不好对外说噢。」

据悉,海底捞之所以引入 AI,是出于对未来成本的控制,逐渐减少人力成本,达到开源节流的目的。海底捞的官网显示,目前,在中国大陆及港澳台地区共有 300+ 家海底捞门店,且所有海底捞餐厅均为直营。

「预计,接入 AI 后,海底捞的客服成本预计每年将减少千万元。」科大讯飞表示,「小美上线以后,他们内部评测的,每个店大概可以节约一个人的人力成本去做别的事情。」

海底捞去年新开的无人餐厅,在门店订餐、排号环节也使用了科大讯飞的技术。

如今,小美已经 2 岁半了,不知,海底捞的目标达到了没有?

产业智能客服科大讯飞语音助手NLP
1
相关数据
科大讯飞机构

科大讯飞股份有限公司(SZ.002230)成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。科大讯飞的语音合成、语音识别、口语评测、机器翻译等智能语音与人工智能核心技术代表了世界最高水平。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求