斯坦福研究表明语音输入比打字快三倍、准确率更高

智能手机语音识别软件不仅比人类打字快三倍,还更加精确。研究者希望通过本次实验促进语音识别技术创新应用的发展。

斯坦福计算机科学系的研究者们比较了语音识别软件和人打字的速度与准确度


智能手机语音识别软件的口碑并不好。大多数用户发现该新兴技术运行非常慢,而且有无数博客在记录着其最大的、有时及其滑稽的错误。


但是一项新实验的结果反映了不同的现实:相比于人类在手机屏幕上打字,语音识别能更快的、更准确的组织文本消息。


「语音识别技术已被我们谈论了几十年,但是它从来没能很好地运行,」斯坦福计算机科学的教授兼这项新研究的合著者 James Landay 说。「但是我们注意到,在过去的两年至三年里,语音识别实际上进步了很多,这得益于大数据和深度学习的发展,我们能够训练其神经网络从而获得更快、更准确的结果。所以我们决定正式测试这项技术,与人类做比较。」


该研究团队,包含来自斯坦福、百度以及华盛顿大学的计算机科学家,设计了一个让百度深度语音 2(基于云的语音识别软件)与 32 名打字者比赛的实验,这些打字者的年龄从 19 岁到 32 岁,使用苹果 iPhone 的内置键盘。


「他们是打着字长大的,我们选择这些真正擅长该任务的人与语音识别对抗,」Landay 说。


比赛项目是依次打出或说出用于基于文本研究的斯坦福每日短语库中的大约 100 个短语,例如「物理和化学很难,」「周末愉快」以及「出去吃点披萨,喝点啤酒」。同时,测试应用会记录他们花的时间和准确率。该项目一半是使用 QWERTY 键盘的英语任务;另一半是使用 iOS 的拼音键盘打出作为母语的普通话。


无论是什么语言,结果都很清楚。对于英语,语音识别比打字快三倍,错误率低 20.4%。对于中文普通话,语音快 2.8 倍,错误率比打字低 63.4%。


「我们知道语音识别非常棒,所以我们预期它会更快,但我们实际上也有点吃惊它几乎比键盘打字快三倍,」帮助组织实验的斯坦福计算机科学的 PhD 兼实验合著者 Sherry Ruan 说。


虽然研究者们使用百度的语音识别软件,但他们猜想其他高精确度的语音引擎也能表现出类似的水平。既然团队成员已经确定了语音识别实际上能运行得很好,他们希望这会鼓励工程师们更好地利用该技术,设计出新的用户交互界面。


「我们应该将语音融入更多类型的应用中,不仅仅是写电子邮件或文本信息,」Landay 说,「你想象如果有一个交互界面,你可以用语音启动它,然后它就切换成了一个可以用手指触控的图形交互界面。」

这项名为「不论是英语还是普通话,在移动设备上语音输入比打字快 3 倍」的研究被发布在 arxiv.org 上。合著者包括华盛顿大学的 Jacob Wobbrock、Kenny Liou 以及百度的吴恩达;吴恩达也是斯坦福计算机科学的副教授。


images (1).jpg


摘要:对于笔记本电脑和桌面电脑,最主要的文本输入方式是全尺寸键盘;现在对于无处不在的移动设备,如智能手机来说,两种新式的方法出现了:微型触摸屏幕键盘和语音输入。 目前并不清楚这两种现代的输入方式的比较情况。因此我们在一台智能手机上,用英语和中文普通话测试了这两种方法的文本输入表现。语音输入的情况下,我们的语音识别系统会给出一个首字母,然后可以通过再次说话或者智能手机键盘来修正识别错误。我们发现使用语音识别,英语的输入速度比最新的微型智能手机键盘快 3 倍,中文普通话的输入速度快 2.8 倍。再者,比起键盘,使用语音的英语错误率要低 20.4%,普通话的错误率要低 63.4%。我们的实验使用深度语音 2,一个基于深度学习的语音识别系统,以及使用苹果 iOS 内置 Qwerty 或拼音键盘。这些结果显示了从打字到语音的显著提升可能即将来临,并带来深远影响。照此结果,更多的开发高效语音交互界面的研究有了保证。


论文地址:Speech Is 3x Faster than Typing for English and Mandarin Text Entry on Mobile Devices

入门
暂无评论
暂无评论~
返回顶部