经研究发现,超过 20% 的移动搜索是基于语音的搜索,并且,预计到 2020 年,这一比例将上升到 50%。由此可见,语音交互将会成为未来主流的人机交互方式之一。如何为移动 APP、硬件设备接入语音交互已经成为不可忽视的话题。
- 如何在 AI 时代,抢占语音交互红利?
- AI 智能语音,如何找准落地场景?
- 如何为产品植入 AI 大脑,让产品能听会说?
- 语音交互如何真正地跟产品融合,与用户产生共鸣?
8 月 3 日,由 Naturali 奇点机智主办的「AI 智能语音:如何与产品结合,完善用户体验」主题分享会于北京中关村太库孵化器举行。Naturali 创始人兼 CEO 邬霄云就语音交互的发展、技术核心及应用场景等方面与现场观众进行了深度探讨,并推出了能够为各类产品语音赋能的「NI 开放平台」——5 分钟,零编码,从零到一轻松打造属于你的语音交互,为产品植入 AI 大脑,创造无限语音体验。
传统开放平台 vs NI 开放平台
近年来,各大互联网巨头纷纷推出了语音开放平台,为智能硬件、移动应用增添语音交互能力。评判各语音开放平台的指标是什么?在各家技术实力相当的情况下,不能再单纯地以语音识别、语义理解等技术作为评判指标。
构建 AI 语音生态的较量,除了准确率,终究比拼的是覆盖率,也就是语音技能的拓展能力,如何能快速创建语音交互体验显得尤为重要。而大厂一般都只关注头部场景的需求,覆盖率往往会被忽视,这导致了用户在语音交互过程中,很多操作无法顺利完成。
传统语音技能平台多为面向开发者,添加语音指令需要工程师手动敲代码,技术门槛高、开发成本高、维护难度高。而这「三高」导致技能的扩展的在数量和效率上都会受到限制。
Naturali 打造的「NI 开放平台」把创造语音技能变成了一件容易事。它不仅仅面向开发者,产品、运营人员都能够成为技能创造者。通过 Naturali 推出的「布点语音」语音助手 APP 在手机上进行技能录制后,即可在网页端登陆到平台下的技能工场中进行技能管理,轻松完成从创建、编辑、到语音技能发布的整个流程。由于开发难度低、技术门槛低,语音技能可进行极速拓展,解决了长期以来语音技能拓展难度高、开发成本高的难题。
经介绍,「NI 开放平台」可为企业打造高度定制化的语音交体验,并具备四大优势:简——无需编码零门槛、所见即所得;准——语音识别、语义理解、多轮对话、播报反馈准确率行业领先;多——所有技能自定义、场景多元化;快——多人协作开发快、发布即可用。
语音交互的本质
人们在跟机器交互时一般是两种形式:一是不知道自己要做什么,只是通过人机对话消磨时间;二是知道自己要做什么,希望语音对话直接帮忙完成相关操作。比如,使用手机 APP 打车时,需要很多点击步骤才能完成,这对于不熟悉手机操作的人群,例如老年人,是很难完成的任务。Naturali CEO 邬霄云在分享会中表示:「我们的目标是希望当用户知道自己要做什么时,可以通过一句话搞定复杂操作,而不需要去想怎么操作图形界面。」
完整的语音交互体验涉及到「听清」、「听懂」、「满足」三个重要组成部分。
「听清」的背后需要语音识别技术来支撑,当机器可以对麦克风收录用户的声音进行准确识别时,机器则有了」耳朵」。要想「听懂」,机器的「AI 大脑」则要进行语义理解,将语音指令转换为文字,通过强大的机器学习和算法能力,进行语义分析,充分理解用户的意图。最后一步,就是要「满足」用户,帮助用户完成相关操作或者播报出查询的信息结果。Naturali 要做的就是提供从「听清」、「听懂」到「满足」的完整语音交互体验。
攻克三大技术难点
Naturali 在打造 NI 开放平台的过程中,解决了三大技术难点。
第一,语音识别定制
目前的语音识别基本都是采用端到端的系统,其优点是代码量小,需要手动提取特征的工程量少,但需要比较多的数据。传统的端到端系统,一般都需要 10 万小时级别的标注数据,适配小众垂类相对困难,不利于普及语音交互体验。
而 Naturali 使用的是「端到端到端」的两个系统,即从声音到拼音,从拼音再到文字。在探索新的垂类时,技术或产品运营人员不再需要进行大量的语音标注,能够比较容易地适配各种垂类及不同类型的 APP。
第二,Type 的扩展性
Type 是指一个语音指令中的可替换参数的标记属性,而标记 Type 可以使该指令具有扩展性。NI 开放平台目前可标注包括产品、地点、人名、食物、歌曲、数字等 11 大类 Type。
例如,当在 NI 开放平台上添加技能「订一张从北京到成都的机票」,只要将「北京」、「成都」的 type 类型标注为「location(地点)」,当用户更换地点名称,再说出语音指令「订一张上海到西安的机票」时,就可以直接执行,无需重新标注,扩展性强。
第三,说法泛化
一句话可能存在不同的说法或表达方式,如何将表达同一含义的说法进行泛化是语音交互的另一大挑战。例如,机器可以听懂「怎么付尾款」,而一旦语序或者用词发生变化,当用户说「尾款怎么付」或「帮我支付一下尾款吧」,机器却听不懂了,这就是遇到了说法泛化上的难题。
而 Naturali 的团队则通过大量的数据积累以及自研的算法模型,让一句话在 NI 开放平台中可以自动拓展出不同的表达方式,大大提高了技能增速以及用户使用体验。
打造三大交互类型
Naturali 可针对企业的不同需求,利用前沿的自然语言处理、深度学习等前沿人工智能技术,在 NI 开放平台上打造专属定制的三类机器人。
第一类,QA 型问答机器人
提供问题和相对应的答案,在用户提问时,机器人即可给出相应的正确答案。
第二类,阅读型问答机器人
用户体验与问答机器人相同,当用户提问时,机器人方可给出答案。不同点在于,无需提供问题和其对应答案,仅需提供一个包含问题和答案的文档,机器人即可以从文档里找到答案。Naturali 团队近期在 2018 年阅读理解技术竞赛中荣获冠军,在基于长文档的中文语义理解上有着领先优势,可以在短时间内快速训练打造各类阅读机器人,可广泛应用于智能客服、语音助手等领域。
第三类,VGUI 助手
Naturali 提出了一套新的语音交互界面 VGUI(声音图形用户界面)。GUI(图形用户界面)是目前电脑和手机屏幕等都在采用的以图形化界面进行交互的主流操作。与之类似的,VUI(语音用户界面)是用声音代替图形,以声音的形式进行交互。二者结合,以声音控制图形界面的操作,VUI + GUI = VGUI,就是 Naturali 独创的理念。
VGUI 助手可以将用户的意图通过语音对话与 APP 的操作关联起来,将语音指令转化为一系列点击、滑动等操作,带用户跳转到最终想去的页面。为各类 APP 打造 VGUI 助手则是 Naturali 团队最擅长的领域。
关于 Naturali 奇点机智
由两位谷歌研究院科学家为推动中文自然语言理解(NLU)研究水准和应用落地而创建,通过在自然语言处理(NLP)、深度学习(Deep Learning)、移动搜索领域的深度探索,为企业提供垂直场景下的智能语音交互解决方案。以用户为出发点,在深度语义理解中建立交互的默契。
Naturali 为手机厂商打造系统内语音助手、为各类智能硬件提供语音交互技术支持、同时也为第三方 APP 打造应用内语音交互定制化方案,覆盖金融证券、移动电商、内容社区、新闻资讯、零售、医疗、娱乐、教育等多个垂直领域。
Naturali 团队所有的产品及底层技术均为自主研发,并且拥有自己的计算集群。团队成员来自于 Google、Facebook、Microsoft 等企业,毕业于北大、清华、浙大、北航、Yale、UCLA 等名校。由真格基金、襄禾资本、NEA 投资,先后入驻微软创投加速器、TechCode 孵化器。
本次活动演讲人——Naturali 奇点机智创始人兼 CEO 邬霄云,纽约州立大学计算机博士,拥有 8 年 Google 研究院,1 年 Yahoo 实验室工作经验,专攻深度学习、自然语言处理、互联网大数据、分布式计算等领域,曾被评为北京市第十二批「海聚工程」创业类特聘专家、2017 年度「中关村高端领军人才」。