3月3日,李开复老师出席了在海南三亚万豪酒店举行的“2017年投资界百人论坛”。会上,作为创新工场董事长兼执行官的开复老师发表了“我不是李开复,我是人工智能”的主题演讲。演讲中,开复老师说:
语音识别是所有技术里面最不成熟的,当我看到一个一个的计划非常担忧,99%会死掉。
你们不要看科大迅飞的演讲说懂得语音了,他一点不懂。
为什么李开复会说科大讯飞不懂语音,99%的语音识别真的要死掉呢?
那么,语音识别的未来出入到底在哪里?
开复老师在报告中已经给出了回答。
--图片来源于:《我不是李开复,我是人工智能》报告
一直以来,许多语音公司都在吹捧:“我们的语音识别率已经达到95%以上”。然而,市面上语音交互产品的体验仍然是弱爆了,到了真实语音交互场景下,复杂的声场环境,各种噪音的影响,语音识别率直线下降,很多产品的语音交互功能都直接歇菜。其实,大家所提到高识别率,还停留在“近场语音识别”的阶段,根本不是自然的人机交互模式,即“远场语音识别”的阶段。
不仅如此,目前的语音识别还没有做到语音理解。正如李开复老师所说:“其实,我听懂讲的每个字不代表听懂了意思,甚至把英文翻译成中文,中文翻译成英文还是没有搞懂。你们不要看科大迅飞的演讲说懂得语音了,他一点不懂,他只能把音变成字,字变成音。你问他讲什么,一个字不懂。所以,语音识别还是要做的更好。”
那么,我们该如何把语音识别做到更好?
1
先把噪音问题解决
其实,我们所说的语音交互涉及了非常复杂的技术链条,包括了声学处理、语音识别、语义理解和语音合成等核心技术。以Siri为代表的近场语音识别已经发展了60多年,特别是在2009年以后借助深度学习有了实质性提高,但是正如扎克伯格所说的,当真正产品落地的时候,我们发现用户真正需要的却是类似Echo所倡导的远场语音识别。
以Siri为代表的近场语音识别要求必须是低噪声、无混响、距离声源很近的场景,比如用户总是要对着手机讲话才能获得符合近场语音识别要求的声音信号,同时还要求用户满足标准发音,其识别率才有可能达到95%以上。
备注:图片来源于网络
但是,若声源距离距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这就会严重影响语音识别率。通常近场语音识别引擎在远场环境下,若没有声学处理的支持,比如麦克风阵列技术的适配,其真实场景识别率实际不足60%。
语音作为人类交流最自然的方式,比文字和图像更具天然的优势。我们要如何更好的发挥语音识别的优势?显然,当前的近场语音交互技术远不能满足我们对自然人机对话的渴望。解决噪音问题,追求真实环境下更自然人机交互方式,提升远场语音识别率是我们的当务之急。
庆幸的是,远场语音交互技术正在逐步成熟。亚马逊Echo的初步成功,已经佐证了远场语音识别的强大需求,即便Echo的水平至多也就是80分的水准。而我们国内的远场语音交互技术水平,可以说还是与国际同步的,科大讯飞和声智科技都在这个领域在发力。
2
自然语义理解还有很长的路要走
目前来说,我们的语音识别水平还停留在类似于人类听觉系统内的一个神经单元的阶段。具体来说,就是语音识别只负责将语言转化成人类可听到的信号激励,体现在计算机应用中,就是我们常说把语音转化成的文字。
语音技术技术的真正突破,除了要得益于基础声学和语音识别的巨大进步,还需要自然语言处理(Natural Language Process,NLP),也就是,我们又称之的自然语言理解(Natural Language Understanding,NLU)获得巨大的突破。
备注:图片来源于网络
基础声学和语音识别解决的是计算机“听得见”的问题,而NLP实际上就是要解决计算机“听的懂”的问题。这么看来,“听的懂”才是未来十年内最为关键的问题。
这些年NLP的研究得到了前所未有的重视并获得了长足的进步,逐渐地发展成为一门独立的学科。在产业界,无论是科技巨头,还是创业公司在这个领域投入巨大的资源。
然而,NLP的进展还没有找到理想的突破点,现实的技术困难还是语义的复杂性,包含因果关系和逻辑推理的上下文等。虽然基于大数据、并行计算的深度学习,已经带给给NLP带来长足的进步,但是若想达到人类的这种理解层次,还需要很长的路要走。按照开复老师的指导,产业界还是不要太贪心做跨领域的通用NLP,先做好垂直领域,解决单领域的实际问题,更具有价值!
3
小结
“语音识别是所有技术里面最不成熟的”的原因有两点:一是涉及声学处理的软硬件还没有标准化,可以理解成机器的耳朵还不够好;二是NLP还没有到达突破点,事实上机器根本不懂人类语言。
李开复老师提出的99%语音识别项目会死掉也有一定的参考,因为语音识别本质上就要和声学处理融合,没有好的耳朵显然是不行的,显然计算机学科无法绕过物理学科的壁垒。
而语言理解天生也和内容绑定,单纯的聊天逗闷子也是不行的。当前大部分创业公司仅仅擅长利用深度学习训练模型,不关注场景和数据,其技术也局限于对开源AI框架的应用和优化,实际上确实没有足够的竞争力,在竞争残酷的市场中很难存活。
虽然当前NLP还做不到理解人类语言,但是现在至少可以把影响语音识别的声学问题解决掉,比如说解决嘈杂环境的噪声问题。由于远场语音交互天然就是场景强相关的,因此也容易形成技术融合的壁垒和数据场景的壁垒,而软硬一体的方案更容易落地市场!当然,近场语音识别过渡到远场语音识别必然还需要一个周期,我们还要抱以更大的宽容给予信心。
在此,感谢李开复老师带来的满满干货!李开复老师的这个主题演讲为人工智能的长足进步指引了正确的方向。
如下附上李开复老师的主题演讲报告《我不是李开复,我是人工智能》,供大家学习、探讨!