AI之年收官,科大讯飞发布会将带来哪些人工智能新突破?

本月初,科大讯飞突然宣布即将于12月21日召开大型发布会,或许对于大多数人来说,每天被所谓的人工智能重磅新闻所包围,这条突发的发布会新闻在海量信息中可能有些不够醒目,但该场发布会却有充足的理由值得我们关注。 即将过去的2015年可以被称为「人工智能年」,重磅新闻接连不断,许多公司和研究机构纷纷发布相关研究和产品。其中有令人兴奋的消息:Brenden Lake 等人发布论文,借助贝叶斯程序学习在处理特定任务时超越了深度学习;谷歌发布第二代深度学习系统 TensorFlow 并向开发者开源;IBM 的认知计算系统 Watson 的实际应用越发丰富,覆盖行业越来越多;微软凭借首创的「深度残差学习」框架在 ImageNet 图像识别大赛中夺得多项第一;Facebook 即将开源人工智能硬件服务器「BigSur」并在图像识别方面取得突破性进展;百度提出语音识别新算法;等等。

但与之同时,国内也有很多擅长捕捉「风口」的公司和机构纷纷搭上人工智能便车,开始了一场没有任何实质的狂欢。 而人工智能巨头科大讯飞还是一如既往的保持低调,并没有参与到国内人工智能行业近乎癫狂的群体性狂欢中。但科大讯飞一直是一家技术驱动的人工智能公司,通过我们与科大讯飞的多次深入交流和访谈,我们有理由相信在这场发布会上会出现多项人工智能技术突破和实质性产品,同时也将成为人工智能年的重要收官。 当然,我们也非常好奇科大讯飞究竟会给我们带来哪些惊喜?机器之心曾对科大讯飞高级副总裁、研究院院长胡郁做过两次深度专访,基于此前的采访,再结合其他信息渠道,我们预测在不久后的发布会上能看到以下几类产品:

  • 现场发布并展示科大讯飞独家的远场识别和高降噪语音技术

胡郁在此前的采访中曾明确表示目前各类语音识别助手存在问题,其中包括应用场景不明晰等。比如说,语音识别不一定适用于各类场景,但远距离语音交互一定是刚需,而解决这个问题涉及到的技术非常复杂,主要包括远场识别和高降噪等。所谓远场识别,就是机器对5米以外声源的高精度识别。胡郁曾表示,远场识别需要一系列技术,包括定位、麦克风波束形成、回声消除、抗混响、唤醒等等,这是一个系统,它可能比语音识别本身还要复杂。讯飞在过去有着多年积累并且取得卓越成就的其实就是在声学部分,并已经解决了远距收集信息的问题。 这些更加复杂的声学技术是科大讯飞一直以来的竞争优势,之前作为本土公司能够拿下奔驰宝马等高端客户也与此密不可分。因此,发布会上公布这类技术的可能性非常大。

  • 多轮互动语音交互技术

目前的语音交互一般需要按照双方的发言顺序来缓冲识别,而多轮互动技术却可以实现对话双方像电话聊天那样的同步交互,从技术上来说,这属于基于规则的对话控制中的一个重要环节,其他核心环节还包括纠错等。胡郁此前曾多次强调多轮对话的重要性和技术难点,如果科大讯飞公布这项研究成果,那无疑会成为此次发布会上的最大亮点。此外,「山东大叔 vs.  安吉星」一直是语音识别领域的一个经典案例,胡郁也在此前的采访中多次引用,而这个案例中反应的最主要问题就是缺乏多轮机制和纠错功能。因此,如果讯飞发布这项功能,可能也会借此调侃一下安吉星语音识别技术提供商、国外语音识别技术巨头——Nuance。

  • 语音移动广告平台

广告一直是人工智能技术非常适用的应用方向,与之相关的商业化也比较清晰。因此,我们预测科大讯飞会利用自身的语音识别技术以及在移动互联网的平台优势推出「语音移动广告」。此前我们获悉,科大讯飞的语音移动广告平台已经低调的在一些游戏展和广告展上亮相,但公司一直把这个具备商业模式创新的产品雪藏。无论如何,如果语音移动广告平台会借此发布,那么凭借科大讯飞领先的市场份额和技术围墙,这不仅会在商业方面取得巨大成功,也会成为一个经典的人工智能应用案例。

  • 升级版的录音宝和录音笔等2C产品

2B 业务为支撑的科大讯飞其实有着丰富的2C产品线,比如讯飞输入法、酷音铃声、灵犀语音助手;面向小众市场的开心熊宝;和京东合资公司出品的叮咚音箱等。但总体来看,除了叮咚之外,似乎科大讯飞的2C产品都缺乏广泛的市场知名度。录音宝是讯飞在 2015 年推出的 App(录音笔在今日开始众筹上线),为媒体从业人员等对长篇音频文件有文字转录需求的用户提供「语音转文字」服务。面对这样一个刚需,如果科大讯飞能提高识别准确率,那这两款产品无疑会成为科大讯飞2C产品线上的重磅产品。

  • 教育产品线

与很多互联网教育公司不同,科大讯飞教育产品面主要面向 K12 课堂教学与考试评测,同时也更加重视依靠人工智能技术去解决相关问题,包括语音测评和自动阅卷等。此外,科大讯飞董事长刘庆峰还透露,「讯飞超脑」计划在不久的将来能让机器人考上清华北大,而这也是其承担的国家科研项目。上个月,日本国立情报学研究所最新研发的人工智能程序在日本高考中考了 511 分,可被 80% 的日本大学录取。相信中国的人工智能公司在高考机器人方面的研究进展也不会落后。

  • 车载设备

汽车内的导航屏幕(行业内称车机)是继电脑、手机和电视之后最有可能成为「第四屏」的硬件入口。科大讯飞在这方面早有布局,为诸多车机厂商提供了语音交互技术,也与宝马等高端客户签订了合作协议。因此,我们估计科大讯飞在此次发布会上可能将推出一款车载语音产品,来继续挑战 Nuance。

  • 人工智能布道者

科大讯飞作为国家 863 计划的一员有着深厚的产业经验和研发积累,也承担着更多的产业和社会责任。公司内部的科学家对人工智能的概念、历史、产业和未来有着非常清晰的认识,对人工智能的解读也会比其他概念型公司更有发言权,这一点在机器之心与科大讯飞胡郁等人的多次交流中深有体会。本次发布会的主题是「AI复始,万物更新」,相信除了介绍能够「更新万物」的具体产品和应用之外,科大讯飞也会派出一位重量级科学家去「复始AI」,对有关概念、研究进展、产业现状、未来发展等进行权威解读,这会是刘庆峰本人吗?  

作者:赵云峰。

入门
返回顶部