吴恩达:语音技术让机器对你「说话」

在科幻电影 Her 里,女主的声音与真人毫无差别,温柔细腻,让人跨越了机器和人的情感。无论你说话是哪里口音、语句本身有多复杂,她都能够无障碍地识别、理解出你的话语,并且还能以人类般富有情感的语言和你对谈——正是这些,让男主不自觉地忽略掉了她是 AI 的身份。

然而,电影女主的声音其实仍来自真人——「寡姐」斯嘉丽·约翰逊的配音。不过,要是下次再拍这部电影,寡姐很可能要失业了——人工智能几乎可以给机器配音了。

今天,在百度语音开放平台三周年庆典活动现场,百度将四大全新语音技术基础服务永久免费开放,包括:大数据情感语音合成、远场语音识别、语音唤醒 2.0、长语音识别功能。

借助这些免费开放的技术,开发者能让产品与用户进行更加逼真的「人类间的谈话」。让我们离 Her 中的科技水平越来越近。

诞生于 2013 年 10 月 25 日的百度语音开放平台,三年来一直在为业界提供领先的语音技术服务。语音识别、语音合成、离在线融合 SDK、唤醒技术等多项核心语音技术成果在三年间陆续获得免费开放。

语音平台三周年庆大会现场还公布了一组百度语音平台的数据,截止目前,该平台开发者数量已经增长至超过 14 万。每天识别的在线请求数在 1 亿以上,合成的在线请求数在 2 亿以上。

百度首席科学家吴恩达首先在大会上进行了 AI 主题演讲。「语音技术将为未来的人机交互带来很大的改变,」吴恩达说,「诸如智能家居的应用,包括手机、音响、电视、车载系统等等。」

互联网进入下一幕,人工智能的时代已经到来。而语音技术作为人机交互方式的入口,将是人工智能重要的一环。吴恩达说:「未来语音输入将会变得更普及。语音技术能做到的不只是让你单方面与你的电脑、手机讲话,同时还要让它们对你『说话』。」百度大脑提供了全行业领先技术的免费接口,包括语音、图像、自然语言处理和用户画像。「百度输出我们的语音合成技术,给开发者探索新机会的可能」。

百度首席科学家吴恩达首先在大会上进行了 AI 主题演讲


百度让机器的声音更像人


今天的大会上,现场向观众分别播放了「度逍遥」和「度丫丫」一男一女两段「机器人声」,两段声音富于情感,流畅自然。

新增的情感语音「度丫丫」的声音试听

百度语音开放平台通过大语料库拼接和 HTS 混合语音合成系统、嵌入式 LSTM 语音合成系统对人声的原音实现了复现,合成出了更具有情感、更接近真人的发音。

今年三月底,张国荣 60 周年诞辰纪念活动上,百度语音技术团队就成功利用「情感语音合成技术」合成出张国荣生前的声音。

让机器听得更远:远场语音识别和语音唤醒技术


无论是亚马逊的 Echo,Google 的 Home 还是百度的小度机器人,这些智能家居核心产品,都强烈依赖「远场语音识别技术」和「语音唤醒技术」,这些技术确保了人在房间里任何角落正常说话,都能让机器识别到并从待机状态「苏醒」开始运作。

百度自主研发的 5 米远场识别技术,能够实现语音增强、回声消除、声源定位等功能。正是这些技术使得人能够在 360° 任何方向说话均能被识别。

语音唤醒是指机器在待机状态下,用户说出特定语音指令(譬如「拍照」「嘿 Siri」等唤醒词)使设备进入工作状态或完成某一操作的技术。

百度语音唤醒功能唤醒率已高达 95%。百度的人工智能产品「小度机器人」凭借百度语音技术的远场方案,实现了远场的识别和唤醒,在 3-5 米的物理距离内便能实现智能操作,真正做到了随时应答。

目前,该产品已经在上海肯德基旗舰店上线,并成功实现了人机语音交互点餐功能。


语音输入比打字快 3 倍,无论英文还是中文


语音识别技术虽然诞生已久,但它却从来没能得到真正良好的运行。不过事情在过去几年间有了变化。斯坦福计算机科学教授 James Landay 在大会上谈到了和百度合作的语音识别实验,依靠大数据和深度学习获得有效训练的深度神经网络,能使语音识别变得更快、更准确。

百度语音识别技术发展轨迹


基于深度学习的百度语音识别系统 Deep Speech 2 (深度语音 2)表现出了这种能力。早前,斯坦福大学的教授们和百度联合做了一项测试:让 Deep Speech 2 软件和 32 名龄从小就熟练打字的年轻人比赛。

结果发现,不论是英文还是中文,在移动设备上使用语音输入比手动打字要快 3 倍,并且能更准确地输入文本信息。


今年 2 月,百度深度语音识别系统 Deep Speech 2 入选 MIT 2016 十大突破技术,也成为此次评选当中唯一一个来自中国科技公司的科技成果。


再长的语音也能识别 


在三周年庆大会现场,爱奇艺技术总监现场展示了一段在爱奇艺app上使用百度语音搜索功能进行语音搜索的演示,在说出「韩剧」「恐怖片」「刘德华的电影」等至今后,界面都成功跳转到了指定页面。

利用强大的长语音搜索技术,百度语音开放平台联合爱奇艺推出的语音助手功能在爱奇艺 app 上获得了顺畅的施展。基于爱奇艺 500 多万条独立 Query 样本数据,以往在语音搜索中常常遇到的搜索效果差、长 Query、口语化、语音识别错误等问题得到了优化,用户语音搜索体验明显提升。

语音开放平台还会应用到搜索以外的更多用户需求中,例如,用户只要说「VIP 续费」便可跳转到 VIP 充值页。

语音技术惠及更多中国人


技术的进步应该让更多人享受到。如今,移动设备和语音技术的普及,让偏远地区农村用户也可以「听」到书,享受到移动互联网带来的便利和乐趣。

百度语音开放平台携手读者甘肃数码科技有限公司打造了「数字农家书屋」app,目前已在甘肃庆阳市的 65 个农村试运行。

由大数据合成的情感语音,为书籍的有声阅读提供了可能,这种更接近人声的自然朗读显然要比机械听书更能获得良好的阅读体验。

百度的云语音识别增强了读者数字农家书屋识别能力,离线在线在不同模式下使用不同功能、对图书进行定制化语音识别、语音检索都大大降低了用户的使用门槛。而另一方面,软件开发上直接实现嵌入式语音功能,也使得用户无需单独下载语音朗读插件。

人工智能的未来还在继续

以技术为核心优势的百度,未来也将在多个产品及技术领域持续实现人工智能的技术应用。

依托于百度大脑大数据与深度学习能力的百度语音技术,是「百度大脑」四大能力应用(语音的能力、图像的能力、自然语言处理能力以及用户画像能力)的典型代表之一。百度大脑融合了百度在计算能力、大数据、算法等方面的优势技术,拥有全世界最大规模的深度神经网络,万亿级参数,支持千亿样本、迁移特征训练,能让百度大脑像人类一样听、看、对话、理解,还能根据所获得的信息进行预判、决策,并控制行动。

无论是手机百度搜索、地图导航、输入法,还是度秘,语音技术的普及都极大优化了产品体验并方便了人们生活。此前,人们在 KFC 点餐时就可以使用日常语言和小度机器人对话,完成从点餐到支付的全流程;在未来,语音技术有着非常广阔的应用前景,和科幻影视剧中的那些机器听从人类语音指令的故事情节一样,语音控制的智能家电、车载系统将会大大方便人们的日常生活。

让更多的开发者受益、推动人机交互的发展进程、不断优化语音带来的用户体验,在百度语音开放平台三周年之际,四大全新语音技术基础服务永久免费将成为百度大脑和全行业向人工智能时代迈进的新起点——此时此刻,可能已经有很多人在等待每天清晨被自己的人工智能管家给唤醒了。

理论百度吴恩达语音识别产业
百度AI
百度AI

这里是百度AI官方账号。这么巧,你也在思考人工智能的十万个未来?

百度AI
返回顶部