Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Naturali 奇点机智 AI 智能语音分享会:如何与产品结合、完善用户体验?

经研究发现,超过 20% 的移动搜索是基于语音的搜索,并且,预计到 2020 年,这一比例将上升到 50%。由此可见,语音交互将会成为未来主流的人机交互方式之一。如何为移动 APP、硬件设备接入语音交互已经成为不可忽视的话题。

  • 如何在 AI 时代,抢占语音交互红利?
  • AI 智能语音,如何找准落地场景?
  • 如何为产品植入 AI 大脑,让产品能听会说?
  • 语音交互如何真正地跟产品融合,与用户产生共鸣?

8 月 3 日,由 Naturali 奇点机智主办的「AI 智能语音:如何与产品结合,完善用户体验」主题分享会于北京中关村太库孵化器举行。Naturali 创始人兼 CEO 邬霄云就语音交互的发展、技术核心及应用场景等方面与现场观众进行了深度探讨,并推出了能够为各类产品语音赋能的「NI 开放平台」——5 分钟,零编码,从零到一轻松打造属于你的语音交互,为产品植入 AI 大脑,创造无限语音体验。 

Naturali 奇点机智 CEO 邬霄云在现场进行主题分享

传统开放平台 vs NI 开放平台

近年来,各大互联网巨头纷纷推出了语音开放平台,为智能硬件、移动应用增添语音交互能力。评判各语音开放平台的指标是什么?在各家技术实力相当的情况下,不能再单纯地以语音识别、语义理解等技术作为评判指标。

构建 AI 语音生态的较量,除了准确率,终究比拼的是覆盖率,也就是语音技能的拓展能力,如何能快速创建语音交互体验显得尤为重要。而大厂一般都只关注头部场景的需求,覆盖率往往会被忽视,这导致了用户在语音交互过程中,很多操作无法顺利完成。

传统语音技能平台多为面向开发者,添加语音指令需要工程师手动敲代码,技术门槛高、开发成本高、维护难度高。而这「三高」导致技能的扩展的在数量和效率上都会受到限制。

Naturali 打造的「NI 开放平台」把创造语音技能变成了一件容易事。它不仅仅面向开发者,产品、运营人员都能够成为技能创造者。通过 Naturali 推出的「布点语音」语音助手 APP 在手机上进行技能录制后,即可在网页端登陆到平台下的技能工场中进行技能管理,轻松完成从创建、编辑、到语音技能发布的整个流程。由于开发难度低、技术门槛低,语音技能可进行极速拓展,解决了长期以来语音技能拓展难度高、开发成本高的难题。

经介绍,「NI 开放平台」可为企业打造高度定制化的语音交体验,并具备四大优势:简——无需编码零门槛、所见即所得;准——语音识别、语义理解、多轮对话、播报反馈准确率行业领先;多——所有技能自定义、场景多元化;快——多人协作开发快、发布即可用。

语音交互的本质

人们在跟机器交互时一般是两种形式:一是不知道自己要做什么,只是通过人机对话消磨时间;二是知道自己要做什么,希望语音对话直接帮忙完成相关操作。比如,使用手机 APP 打车时,需要很多点击步骤才能完成,这对于不熟悉手机操作的人群,例如老年人,是很难完成的任务。Naturali CEO 邬霄云在分享会中表示:「我们的目标是希望当用户知道自己要做什么时,可以通过一句话搞定复杂操作,而不需要去想怎么操作图形界面。」

完整的语音交互体验涉及到「听清」、「听懂」、「满足」三个重要组成部分。

「听清」的背后需要语音识别技术来支撑,当机器可以对麦克风收录用户的声音进行准确识别时,机器则有了」耳朵」。要想「听懂」,机器的「AI 大脑」则要进行语义理解,将语音指令转换为文字,通过强大的机器学习和算法能力,进行语义分析,充分理解用户的意图。最后一步,就是要「满足」用户,帮助用户完成相关操作或者播报出查询的信息结果。Naturali 要做的就是提供从「听清」、「听懂」到「满足」的完整语音交互体验。

攻克三大技术难点

Naturali 在打造 NI 开放平台的过程中,解决了三大技术难点。

第一,语音识别定制

目前的语音识别基本都是采用端到端的系统,其优点是代码量小,需要手动提取特征的工程量少,但需要比较多的数据。传统的端到端系统,一般都需要 10 万小时级别的标注数据,适配小众垂类相对困难,不利于普及语音交互体验。

而 Naturali 使用的是「端到端到端」的两个系统,即从声音到拼音,从拼音再到文字。在探索新的垂类时,技术或产品运营人员不再需要进行大量的语音标注,能够比较容易地适配各种垂类及不同类型的 APP。

第二,Type 的扩展性

Type 是指一个语音指令中的可替换参数的标记属性,而标记 Type 可以使该指令具有扩展性。NI 开放平台目前可标注包括产品、地点、人名、食物、歌曲、数字等 11 大类 Type。

例如,当在 NI 开放平台上添加技能「订一张从北京到成都的机票」,只要将「北京」、「成都」的 type 类型标注为「location(地点)」,当用户更换地点名称,再说出语音指令「订一张上海到西安的机票」时,就可以直接执行,无需重新标注,扩展性强。

第三,说法泛化

一句话可能存在不同的说法或表达方式,如何将表达同一含义的说法进行泛化是语音交互的另一大挑战。例如,机器可以听懂「怎么付尾款」,而一旦语序或者用词发生变化,当用户说「尾款怎么付」或「帮我支付一下尾款吧」,机器却听不懂了,这就是遇到了说法泛化上的难题。

而 Naturali 的团队则通过大量的数据积累以及自研的算法模型,让一句话在 NI 开放平台中可以自动拓展出不同的表达方式,大大提高了技能增速以及用户使用体验。

打造三大交互类型

Naturali 可针对企业的不同需求,利用前沿的自然语言处理深度学习等前沿人工智能技术,在 NI 开放平台上打造专属定制的三类机器人。

第一类,QA 型问答机器人

提供问题和相对应的答案,在用户提问时,机器人即可给出相应的正确答案。

第二类,阅读型问答机器人

用户体验与问答机器人相同,当用户提问时,机器人方可给出答案。不同点在于,无需提供问题和其对应答案,仅需提供一个包含问题和答案的文档,机器人即可以从文档里找到答案。Naturali 团队近期在 2018 年阅读理解技术竞赛中荣获冠军,在基于长文档的中文语义理解上有着领先优势,可以在短时间内快速训练打造各类阅读机器人,可广泛应用于智能客服、语音助手等领域。

第三类,VGUI 助手

Naturali 提出了一套新的语音交互界面 VGUI(声音图形用户界面)。GUI(图形用户界面)是目前电脑和手机屏幕等都在采用的以图形化界面进行交互的主流操作。与之类似的,VUI(语音用户界面)是用声音代替图形,以声音的形式进行交互。二者结合,以声音控制图形界面的操作,VUI + GUI = VGUI,就是 Naturali 独创的理念。

VGUI 助手可以将用户的意图通过语音对话与 APP 的操作关联起来,将语音指令转化为一系列点击、滑动等操作,带用户跳转到最终想去的页面。为各类 APP 打造 VGUI 助手则是 Naturali 团队最擅长的领域。

关于 Naturali 奇点机智

由两位谷歌研究院科学家为推动中文自然语言理解(NLU)研究水准和应用落地而创建,通过在自然语言处理(NLP)、深度学习(Deep Learning)、移动搜索领域的深度探索,为企业提供垂直场景下的智能语音交互解决方案。以用户为出发点,在深度语义理解中建立交互的默契。

Naturali 为手机厂商打造系统内语音助手、为各类智能硬件提供语音交互技术支持、同时也为第三方 APP 打造应用内语音交互定制化方案,覆盖金融证券、移动电商、内容社区、新闻资讯、零售、医疗、娱乐、教育等多个垂直领域。

Naturali 团队所有的产品及底层技术均为自主研发,并且拥有自己的计算集群。团队成员来自于 Google、Facebook、Microsoft 等企业,毕业于北大、清华、浙大、北航、Yale、UCLA 等名校。由真格基金、襄禾资本、NEA 投资,先后入驻微软创投加速器、TechCode 孵化器。

本次活动演讲人——Naturali 奇点机智创始人兼 CEO 邬霄云,纽约州立大学计算机博士,拥有 8 年 Google 研究院,1 年 Yahoo 实验室工作经验,专攻深度学习自然语言处理、互联网大数据、分布式计算等领域,曾被评为北京市第十二批「海聚工程」创业类特聘专家、2017 年度「中关村高端领军人才」。

产业
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

分布式计算技术技术

在计算机科学中,分布式计算,又译为分散式運算。这个研究领域,主要研究分布式系统如何进行计算。分布式系统是一组电脑,通过网络相互链接传递消息与通信后并协调它们的行为而形成的系统。组件之间彼此进行交互以实现一个共同的目标。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~