讯飞输入法

在 10 月 18 日的锤子发布会上,除了焦点 M1L 之外,语音输入部分惊艳了不少观众。

台上的老罗对着手机说出「今天上午,我们一行人从火车站来到了洲际酒店」,被迅速识别转换成文字出现在手机屏幕上时,现场爆发出一阵惊呼和掌声。接着,老罗开始「长时间的胡说八道」,讲了一段自己没吃晚饭不舒服、吃药、喝冰水、来不及去医院、直接上发布会的过程。16 秒不间断的高语速大段口语内容,不到 1 秒便准确呈现在屏幕上,现场雷鸣般的掌声和欢呼声久久不能平息。

21478239194.jpg

老罗现场演讲「胡说八道」的内容

老罗的现场演示展示出语音输入的便捷、可靠与高效。支持这一切的,正是讯飞输入法的语音输入功能。自 2010 年发布以来,讯飞输入法累积用户已超 4 亿,活跃用户超 1.1 亿。据称,随着深度学习技术的不断突破和应用,其语音识别准确率高于 97%,1 分钟可识别 400 字。

在 11 月 2 日的讯飞输入法沟通会上,讯飞输入法产品总监翟吉博分享了讯飞输入法背后的故事,包括这是一个最初仅 4 人的「小项目」、涟漪效应为这款输入法带来的提升、以及他们对输入法这一产品的思考。


三个月,四个人

2010 年 6 月 8 日,苹果发布了拥有「100 多项创新设计」的经典产品 iPhone 4,引发全球排队购机热潮。据称,iPhone4 的全球销量虽次于诺基亚「神机」1100,但总销售量也超过 1 亿大关。

不过 iPhone 4 屏幕仅为 3.5 英寸。虽说在当时已经算「大屏」,但现在看来也不过是 iPhone7plus 屏幕的二分之一,用全键盘打字时仍有不少困难。

听见.jpg

应用讯飞听见,屏幕上可以实时显示正在分享的内容

既然用手指输入文字体验不好,可不可以用语音输入?当时做语音相关工作的翟吉博「基于纯技术的思维,将手写输入、语音识别和拼音放在一起,做出了输入法的 Demo」。虽然自己不以为意,但当时的上司看到成果,认为这个产品应该让更多人使用。于是技术出身的翟吉博,开始了学习了解市场、分析用户需求,成为了一名「产品经理」。

2010 年 10 月,在 iPhone4 发售 4 个月后,讯飞输入法正式上线。6 年积累,曾经由 4 人小团队封闭 3 个月打造的产品,已经牢牢占据各大应用商店输入法类下载量第二。

为什么是讯飞?回想讯飞输入法出现的时机,虽然 PC 上已有搜狗输入法、百度输入法等相关产品,但移动端市场还处在前期,针对手机端优化的输入法还是空白。「我们认为手机端的输入方式会发生变化,语音交互的比重会越来越大。而且语音输入已经达到可使用的基本门槛,加上对涟漪效应的理解,我们认为通过几年的时间,讯飞输入法可以成熟。」

如今的讯飞输入法团队成员,最开始多是热心用户。曾在论坛里吐槽功能不好用、给产品经理提建议的粉丝成为了讯飞输入法的运营经理,机锋论坛里做 ROM 的「大神」正在负责起渠道推广。曾在电脑城卖过光盘、做过网站,因设计输入法皮肤获奖的用户,也成为了讯飞输入法的专职皮肤设计师。


如何获取更多用户?

满足了使用的基本需求后,如何让更多人使用这款产品?

经过细致的思考和调研,翟吉博团队发现用户在使用语音输入时有四种需求需要被满足:

首先是网络,当时的讯飞输入法需要调用云端极度依赖网络,但移动互联网并不稳定,用户对流量也很敏感;其次是方言,不同方言区的用户的特殊词难以被识别;再其次是个性化语言,不同的人有不同的语言习惯、说话方式和自己的惯用词汇;最后是跨语言交流,让不同语言的人可以通过文字互相了解,方便沟通。

方言.jpg

产品总监翟吉博现场演示方言版效果,「巴适」、「马路牙子」都可以被识别出来

通过推出离线版、方言版、学习个人习惯和中英文实时翻译等版本和功能,讯飞输入法不断满足着这些需求。目前讯飞输入法支持包括粤语、东北话、河南话、四川话能在内近 20 种方言,「秃噜皮儿」、「辣子」等名词都能被迅速识别;选择中英文翻译功能,对准话筒说中文,屏幕上会自动翻译为英文。

除此之外,为满足明星粉丝用户的需求,推出了明星皮肤和图片;为满足二次元用户,可以用讯飞输入法上轻松打出颜文字,甚至还有斗图功能……

这大概是对用户最友好的输入法了。作为高依赖度的工具类产品,获得 4 亿累计用户,1.1 亿活跃用户似乎也就不足为奇。


为什么识别得快又准?

世界上最早的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey,可以识别 10 个英文数字。到了 1960 年代,人工神经网络被引入语音识别,两大突破是线性预测编码(Linear Predictive Coding,LPC) 与动态时间弯折(Dynamic Time Warp),不过大都是基于单词、孤立词或是特例人的研究。上世纪 80 年代末,李开复实现了基于隐马尔科夫模型的大词汇量语音识别系统 Sphinx,才完成了语音识别向随机内容、非特例人的句子识别的转变。

直到 2010 年,深度神经网络技术开始应用于语音识别,识别的效果和速度才得到了跨越式的提升。通过海量训练语料基础上的高精度声学模型和语言模型训练,结合解码引擎工程技术,人工智能技术的加入给语音识别带来全新的发展前景。

v2-6be822959d33c040135f73f9957d1a0f_b.jpg

主流语音识别系统框架


不过仅有核心技术的提升是不够的,对于深度神经网络来说,真实的数据就是养料和智慧。科大讯飞轮值总裁胡郁曾用「涟漪效应」解释过数据和技术应用的关系:当某一项核心技术刚刚被大众所使用时,就像一滴水滴入水面,水波纹的起伏就是核心技术与用户期望之间的误差。水波纹逐步传播,就像核心技术正在逐步被更多的用户所使用,虽然这时效果还不太好,接触到的用户也不多,但这些用户不知不觉中贡献的经验和数据已经被系统自动学习和更新。

当水波纹向外扩散,接下来接触到核心技术的人已经在使用更新过的系统。随着使用的人群越来越多,水波纹扩散的越来越广,大家会发现其实水波的振幅也越来越小,系统的性能也大幅提高。

正是 6 年间用户不断的贡献真实数据,才让讯飞输入法达到了「语音输入通用识别率为 97%,正常的语音输入文字已经不再有很大障碍」的程度,用户体验也在这一过程中逐步提升。

除了语音识别,讯飞输入法的手写识别部分也用到了神经网络和图像识别技术,还可以支持连续书写的文字识别。


在这样一个「低头时代」,又会有多少人选择语音输入?

答案可能远比想象的多。讯飞输入法后台数据显示,虽不是主要输入手段,语音输入的用户比例一直在提升,已经接近手写输入的比例。在这个追逐效率的时代,选择语音输入的用户大概会越来越多。

以及,如果真的很忙来不及发文字,可以考虑试一试语音输入。毕竟在微信上收五条 60 秒语音的经历,有过一次可不想再有第二次了。

入门语音识别科大讯飞产业NLP