Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

把唤醒体验做到极致,猎户星空发布“小雅”智能语音系统

「小雅小雅」,「哎!」

这是与内置猎户星空自研语音系统的 AI 智能音箱「小雅」的简单唤醒对话。现场听来无论是,无论回应速度(1.5 秒),还是声音「哎!」都达到了真人的效果,仿佛一个邻家女孩在和你对话。

2017 年 6 月 20 日,猎户星空联合喜马拉雅等发布小雅 AI 音箱。作为猎户星空 AI 生态链上的第一款智能硬件产品,其背后核心是猎户星空全链路自研的远场语音交互系统。据猎豹 CEO 猎户星空投资人傅盛介绍,猎户星空现已掌握麦克风阵列、语音唤醒、语音识别、语义理解和语音合成等全套远场语音技术,各环节相互补充配合,让语音交互更快更准。



把唤醒体验做到极致


在傅盛看来,唤醒是智能音箱互动的第一步也关键一步。因为「当你喊一个人,喊不动时,总想踢他一脚,」这是从用户体验的角度来考虑的,「大家都会有这个心理。」

因此猎户星空在唤醒技术上做大的投入,让小雅像人一样有呼必应,把这一点上的体验上做到了极致。行业一流的麦克风阵列技术和基于汉字整体建模的 CNN 唤醒技术,让小雅做到了业界一流的唤醒效果。

一般来说,5 米之外的正常音量的声音即可唤醒。同时为了减少唤醒失误,采用了「小雅小雅」四字唤醒,而不是一声「小雅」唤醒。在正常的情况下成功率在 95% 以上。据猎豹 CEO 猎户星空投资人傅盛介绍,95% 这个数字并不算高。如果为了数字好看,可以做到 98% 甚至每唤必醒,「但是问题就在于,如果只是小雅两个字,会大幅度增加误唤醒,增加用户在使用时候的不便利性。比如说每天都会有它会突然给你喊一嗓子。」在嘈杂的环境中,小雅的唤醒表现依然优秀,无论是开着电视,还是人声嘈杂的环境,傅盛说,「都能够做到今天我们能做到这个行业里最好的水平。」


由于唤醒回应的回音会在音腔里环绕,会造成下一句话解析的时候出现误识别,为了把这个误识别去掉,在研发上要付出很多的努力。在「小雅」的研发过程中,唤醒回答一度要被去掉。但是最终得以保留,这里面有两个原因,一是对话有往来,能让人觉得温暖,另一个原因是如果设置成亮灯回应,如果用户在稍远的地方,可能会看不见灯光。不知道它是否已经被唤醒,不知道该不该说话,会给用户造成局促感。

此外,小雅的声音极具人性化,听起来与十八岁少女几乎毫无差别。「作为一款陪伴孤独的产品,不能让人越听越孤独,一定要温暖。」傅盛说道,「如果是行家的话就可以听出来,为了让小雅更有情感,更温暖,语音团队付出了很大的努力。」——猎户星空历时 3 个月为小雅打造了一款音库,「这个音库不是录音,而是输入文字自动产生的效果,每句话都会有情感。」在技术的实现上,小雅采用了拼接技术,实现了人的标注和声音效果的结合。

内容点播随意化


傅盛认为「智能音箱」首先应该是一款音箱,在播放用户体验上必须下功夫。同大多数智能音箱产品类似,「小雅」也具备点播功能。但是不同的是,用户在点播时所用的语言可以随意化,比如说,「下一个」,「下一首」,「再来一首」,「换一首」小雅都能理解。据傅盛介绍,单就这一个指令,小雅的技术团队准备了上百种指令泛化。

其次根据喜马拉雅的需求,对内容进行深度定制,对查询体验做了大量优化,保证点播准确率 90%+,这背后是猎户星空全球领先的多层单向 LSTM 的上下文无关音节建模。比如说你想听周杰伦某首歌的 1999 年世界巡回演唱版,这个标题念出非常长。做了优化后,可以简洁的标题就能听到这首歌。

「让家庭生活更智能更有趣,让世界因科技而更美好」,猎豹移动 CEO、猎户星空投资人傅盛在今天的发布会上这样谈到小雅的使命。而小雅这个产品的真正利益点在于「能够给用户提供丰富的内容,能够真正让用户在百无聊赖的时候,做腿部肌肉练习的时候,还能够不断地听到更多的内容。」猎户追求的是极致的用户体验,做深度打磨,带来好的语音交互体验。

 

据悉,猎户星空创立于 2016 年 9 月。公司初创团队拥有来自美国硅谷,日本,台湾等地区,其中博士超过30人,上百个在行业内有五年以上工作经验的工程师,语音技术团队有100人。未来,猎户星空将陆续发布多款人工智能相关产品。 

入门智能音箱产业应用产品创业公司猎户星空猎豹移动傅盛智能硬件
暂无评论
暂无评论~