手机上的实时语音转录,谷歌为听障人士连接世界

“用新技术帮助更多人接触到这个世界”是谷歌的愿景之一。这家公司最近推出的“Live Transcribe”,就是其中的重要一步:它可以帮助听障人士与他人顺畅地交流,同时成本很低,每个人都可以获取。

现在,只要使用一台普通的安卓手机,有听力障碍的人们就可以和他人进行直接无障碍的对话了、和谷歌的大多数产品一样,这种工具支持多种语言(包括中文)。

谷歌Live Transcribe的语音转录效果

近日,在一个媒体沟通活动中,谷歌向我们展示了这一最新产品,并介绍了它的开发历程。

据世界卫生组织 (WHO) 估计,全球目前已有 4.66 亿耳聋及听障人士;而到2055年,这一数字将高达9亿。“在65到74岁的人群中,约有三分之一的人报告自己有听力障碍,”GoogleAI产品经理Sagar Savla在活动中介绍道。“我在印度居住的祖父母就有听力障碍。而这些老年人习惯了正常形式的交流,当出现了听觉障碍后生活就会很不方便。”

自动语音识别(ASR)技术能够让计算机检测到人类对话的语言,并将其转录为文本以供阅读。此前,这种方法已经可以为视频自动添加字幕,并可以为电话提供语音转录的文字显示。然而在很多场景下,这种技术还无法部署,它面临着延迟大、设备要求过高等问题。

谷歌一直在试图解决这些挑战。据介绍,Live Transcribe团队成立于去年,其提出的人工智能语音识别技术目前适用于一对一对话形式,并主要依托云计算处理信息。Live Transcribe所搭载的平台是全球分布范围最广的安卓系统——现在全世界已有超过20亿台安卓设备。

Live Transcribe在转录语音时可以很好地结合上下文,减少识别错误。为了让最终产品更加易于使用,开发者们与Gallaudet大学进行了用户体验的研究,并找到了语音转录效率最高的显示方式。目前,它在对话时语音转录的反应延迟低于200毫秒。

3.gif软件可以显示语音转录文字的置信度(上图左),但谷歌的研究人员发现这种方式可能降低人们的阅读效率 Live Transcribe采用了两种神经网络:手机上的网络被用于分类声音,如狗叫和小孩的哭声;分类后的人声信息则交于云端基于RNN的神经网络进行语音识别,其可以在7个字之间上下文范围内进行纠错。

为了提高效率,谷歌在先前AudioSet的工作基础上,实现了基于神经网络的设备端语音检测器。该网络是一种图像式模型,类似于此前发布的VGGish模型,它可以检测语音并自动管理与云ASR引擎的网络连接,将长时间使用过程中的数据流量消耗降至最低。

“谷歌服务器云端处理的方式可以让Live Transcribe覆盖更多人群,并适配更低配置的手机。”Sagar Savla表示,“目前,这一工具可以安装在全球20多种安卓设备上。”

这一工具已支持70种语言,其中包括英语、汉语、西班牙语等主要语言,这意味着它可以覆盖80%以上的全球人口。对于双语家庭而言,Live Transcribe也可以通过快速切换功能处理两种语言。

为了让更多人能够获得Live Transcribe带来的便利,谷歌的开发人员尽可能地减少这种系统的需求。据介绍,其手机端模型大小仅为4m,以便让四五年前买到的智能手机也可以安装。“在设计这个产品之初,我们发现大多数听障人群的设备配置并不高。”Savla介绍道,“但只要有网络,我们的工具就可以工作。”

选择手机作为载体,Live Transcribe也面临着缺乏麦克风阵列的问题。语音识别的一大挑战就是“鸡尾酒会问题”——在背景噪音、多人声存在的情况下,人工智能算法往往无法分辨出目标人的语音。为了解决这一问题,谷歌团队采用了最简单的方法:设计一个两个同心圆形的提示器,若现场噪音过大,则提示“听者”前往一个更安静的地点继续对话。

image.pngSagar SavlaLive Transcribe项目在谷歌不仅建立起了一个开发团队,也吸引了重量级技术人员的参与——Dimitri Kanevsky也参与了这个研究,他是一个俄裔著名学者,也是一个天生的聋人,早在1998年Dimitri就在开发了第一个远程转录系统,并曾获得美国的很多国家级荣誉。“大腕级的人物加盟推动了新工具的发展。”Sagar Savla表示。

Live Transcribe只是一个开始。目前,这一工具已在谷歌Pixel 3手机上的GBoard上开始了应用。在未来,谷歌还希望能把这一技术推向更多种类的手机,并增强系统的抗噪音能力。

产业神经网络语音识别谷歌
相关数据
VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

麦克风阵列技术

麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。 早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。

推荐文章
暂无评论
暂无评论~