为什么李开复说科大讯飞不懂语音,99%的语音识别项目要死掉?

全文约3000字,阅读时间预计5分钟。

3月3日,李开复老师出席了在海南三亚万豪酒店举行的“2017年投资界百人论坛”。会上,作为创新工场董事长兼执行官的开复老师发表了“我不是李开复,我是人工智能”的主题演讲。演讲中,开复老师说:

语音识别是所有技术里面最不成熟的,当我看到一个一个的计划非常担忧,99%会死掉。


你们不要看科大迅飞的演讲说懂得语音了,他一点不懂。

为什么李开复会说科大讯飞不懂语音,99%的语音识别真的要死掉呢?

那么,语音识别的未来出入到底在哪里?

开复老师在报告中已经给出了回答。

--图片来源于:《我不是李开复,我是人工智能》报告

一直以来,许多语音公司都在吹捧:“我们的语音识别率已经达到95%以上”。然而,市面上语音交互产品的体验仍然是弱爆了,到了真实语音交互场景下,复杂的声场环境,各种噪音的影响,语音识别率直线下降,很多产品的语音交互功能都直接歇菜。其实,大家所提到高识别率,还停留在“近场语音识别”的阶段,根本不是自然的人机交互模式,即“远场语音识别”的阶段。

不仅如此,目前的语音识别还没有做到语音理解。正如李开复老师所说:“其实,我听懂讲的每个字不代表听懂了意思,甚至把英文翻译成中文,中文翻译成英文还是没有搞懂。你们不要看科大迅飞的演讲说懂得语音了,他一点不懂,他只能把音变成字,字变成音。你问他讲什么,一个字不懂。所以,语音识别还是要做的更好。”

那么,我们该如何把语音识别做到更好?

1

先把噪音问题解决    

其实,我们所说的语音交互涉及了非常复杂的技术链条,包括了声学处理、语音识别、语义理解和语音合成等核心技术。以Siri为代表的近场语音识别已经发展了60多年,特别是在2009年以后借助深度学习有了实质性提高,但是正如扎克伯格所说的,当真正产品落地的时候,我们发现用户真正需要的却是类似Echo所倡导的远场语音识别

以Siri为代表的近场语音识别要求必须是低噪声、无混响、距离声源很近的场景,比如用户总是要对着手机讲话才能获得符合近场语音识别要求的声音信号,同时还要求用户满足标准发音,其识别率才有可能达到95%以上。

备注:图片来源于网络

但是,若声源距离距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这就会严重影响语音识别率。通常近场语音识别引擎在远场环境下,若没有声学处理的支持,比如麦克风阵列技术的适配,其真实场景识别率实际不足60%。

语音作为人类交流最自然的方式,比文字和图像更具天然的优势。我们要如何更好的发挥语音识别的优势?显然,当前的近场语音交互技术远不能满足我们对自然人机对话的渴望。解决噪音问题,追求真实环境下更自然人机交互方式,提升远场语音识别率是我们的当务之急。

庆幸的是,远场语音交互技术正在逐步成熟。亚马逊Echo的初步成功,已经佐证了远场语音识别的强大需求,即便Echo的水平至多也就是80分的水准。而我们国内的远场语音交互技术水平,可以说还是与国际同步的,科大讯飞和声智科技都在这个领域在发力。

2

自然语义理解还有很长的路要走    

目前来说,我们的语音识别水平还停留在类似于人类听觉系统内的一个神经单元的阶段。具体来说,就是语音识别只负责将语言转化成人类可听到的信号激励,体现在计算机应用中,就是我们常说把语音转化成的文字。

语音技术技术的真正突破,除了要得益于基础声学和语音识别的巨大进步,还需要自然语言处理(Natural Language Process,NLP),也就是,我们又称之的自然语言理解(Natural Language Understanding,NLU)获得巨大的突破。

备注:图片来源于网络

基础声学和语音识别解决的是计算机“听得见”的问题,而NLP实际上就是要解决计算机“听的懂”的问题。这么看来,“听的懂”才是未来十年内最为关键的问题。

这些年NLP的研究得到了前所未有的重视并获得了长足的进步,逐渐地发展成为一门独立的学科。在产业界,无论是科技巨头,还是创业公司在这个领域投入巨大的资源。

然而,NLP的进展还没有找到理想的突破点,现实的技术困难还是语义的复杂性,包含因果关系和逻辑推理的上下文等。虽然基于大数据、并行计算的深度学习,已经带给给NLP带来长足的进步,但是若想达到人类的这种理解层次,还需要很长的路要走。按照开复老师的指导,产业界还是不要太贪心做跨领域的通用NLP,先做好垂直领域,解决单领域的实际问题,更具有价值!

                                                                                                                                   3


小结    

语音识别是所有技术里面最不成熟的”的原因有两点:一是涉及声学处理的软硬件还没有标准化,可以理解成机器的耳朵还不够好;二是NLP还没有到达突破点,事实上机器根本不懂人类语言。

李开复老师提出的99%语音识别项目会死掉也有一定的参考,因为语音识别本质上就要和声学处理融合,没有好的耳朵显然是不行的,显然计算机学科无法绕过物理学科的壁垒。

而语言理解天生也和内容绑定,单纯的聊天逗闷子也是不行的。当前大部分创业公司仅仅擅长利用深度学习训练模型,不关注场景和数据,其技术也局限于对开源AI框架的应用和优化,实际上确实没有足够的竞争力,在竞争残酷的市场中很难存活。

虽然当前NLP还做不到理解人类语言,但是现在至少可以把影响语音识别的声学问题解决掉,比如说解决嘈杂环境的噪声问题。由于远场语音交互天然就是场景强相关的,因此也容易形成技术融合的壁垒和数据场景的壁垒,而软硬一体的方案更容易落地市场!当然,近场语音识别过渡到远场语音识别必然还需要一个周期,我们还要抱以更大的宽容给予信心。

在此,感谢李开复老师带来的满满干货!李开复老师的这个主题演讲为人工智能的长足进步指引了正确的方向。

如下附上李开复老师的主题演讲报告《我不是李开复,我是人工智能》,供大家学习、探讨!



入门语音识别自然语义理解深度学习
相关数据
逻辑技术
Logic

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

人机交互技术
Human-computer interaction

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

逻辑推理技术
logical reasoning

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语音合成技术
Speech synthesis

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

语音识别技术
Speech Recognition

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。 近年来监督式深度学习方法(以反馈算法训练CNN、LSTM等)获得了空前的成功,而基于半监督或非监督式的方法(如DBM、DBN、stacked autoencoder)虽然在深度学习兴起阶段起到了重要的启蒙作用,但仍处在研究阶段并已获得不错的进展。在未来,非监督式学习将是深度学习的重要研究方向,因为人和动物的学习大多是非监督式的,我们通过观察来发现世界的构造,而不是被提前告知所有物体的名字。 至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

噪音技术
Noise

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

声学在线
声学在线

声学在线是国内领先声学与人工智能领域前沿科技媒体与资讯服务平台,关注国内外声学与人工智能技术创新与产业前沿资讯,致力于挖掘声学产业链上下游的动态发展,深度解读新兴技术与市场发展趋势,独立、客观、专业地为业界提供具有深度价值的内容与产业服务。

声学在线
推荐文章
Face++旷视科技首席科学家孙剑首次接受专访:计算机视觉亟待解决哪些问题?Face++旷视科技首席科学家孙剑首次接受专访:计算机视觉亟待解决哪些问题?
虞喵喵虞喵喵
童欣:数据驱动方法在图形学中的应用童欣:数据驱动方法在图形学中的应用
微软研究院AI头条微软研究院AI头条
中国《人工智能标准化白皮书2018》发布完整版(附下载)中国《人工智能标准化白皮书2018》发布完整版(附下载)
转载转载
3
返回顶部