Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

高静宜撰文

我们找到大象声科,好好聊了聊被罗永浩点名的AI通话智能降噪

4 月 9 日,锤子科技 2018 春季新品发布会如约而至。

 在锤粉们的期待下,罗永浩带着他的新机坚果 3 走上了舞台。

在刚刚过去的三月份里,华为、小米、vivo、OPPO 相继出招,纷纷亮出自家的新品旗舰机。
 

而紧跟其后的锤子仅用坚果 3 上交了如下答卷:

尽管这样一款性能平平的千元机并没有满足锤粉们的期待,但我们还是想从一张 PPT 谈起。

不同于时下的手机厂商发新机时必然花上几页 PPT 大谈特谈 AI,罗永浩对坚果 3AI 能力的姿态是——一页 PPT、一笔带过式介绍。

但对用户的使用体验来说,这项「AI 通话智能降噪技术」能够实实在把他们从三个典型场景中的糟糕通话体验中解救出来。

简单理解起来,它能帮用户过滤掉周围嘈杂的背景音,加强通话者本身的声音。

罗永浩介绍,这项功能的背后整合了语音信号处理引擎供应商大象声科的技术能力。

说到这里,不得不提到那个经典的「鸡尾酒会」难题——在语音识别技术已经能够以较高精度识别一个人讲话的前提下,说话人数增加为两人或者多人时,语音识别率就会极大地降低。

大象声科联合创始人兼首席科学家汪德亮曾在公开演讲中提到,鸡尾酒会问题本质是一个声源分离问题。为了解决这个问题,大象声科选择从神经网络领域切入,利用深度学习技术完成降噪和语音增强方案。

而不同于鸡尾酒会问题的分离人声,在手机通话场景下需要解决的则是人声和非人声的分离。大象声科创始人兼任 CEO 苗健彰告诉机器之能,尽管二者从实现原理上是一致的,但是团队在其中做了运算量上面的权衡。「严格意义上说,我们距离完全解决鸡尾酒会问题还差一步。」

凭借深度学习技术,大象声科基于人类听觉系统对环境声音感知和处理机制,再结合传统信号处理降噪方法,实现了利用手机单麦克风,在各种复杂噪音环境下的语音提取和信号增强。

与双麦降噪等传统的麦克风降噪技术相比,利用深度学习手段可以使那些传统降噪方案比较难处理的动态噪音得到很好的抑制。更重要的是,深度学习降噪处理只需要一个麦克风就可以达到传统信号处理技术两个麦克风的降噪效果,这不仅降低了硬件成本,更极大地降低了硬件的调试周期。

目前,大象声科实现了单麦克风下的人声和噪音分离。按照官方说法,在各类噪音场景下信噪比平均提升超过了 25dB。一般来说,信噪比数值越高,说明混在信号中的杂音越少。

「这个提升意味着,在一般吵杂的环境中(比如饭店或者马路)通话,对方是几乎听不到噪音的。」苗健彰解释道,也会发现一些冲击、尖锐的噪音(比如施工工地敲击声或者汽车喇叭声)也抑制得很好,而这些都是动态噪音。

不过,在手机上部署深度学习降噪解决方案也并非易事,更何况,其中最大难点并不在于计算资源的限制。苗健彰表示,坚果 3 使用的骁龙 625 完全满足目前算法的运算需求。

「由于手机覆盖的应用场景是各种硬件当中最多的,所以要让深度学习的降噪解决方案在手机上应用,首当其冲的其实是要解决模型的泛化性能。我们在这方面投入了大量的研发工作,目前在保持模型小型化的前提下,获得了最优的噪声环境覆盖。」

这次和锤子手机的合作,是大象声科在手机领域的第一次,公司计划陆续将智能语音降噪技术推广到更多的手机品牌和厂商。

「大象声科希望成为新一代手机语音信号处理技术提供商,为手机通讯以及人机交互提供智能降噪服务,打造更清晰的机器听觉体验。」苗健彰这样说道。

除了手机领域,智能硬件、车载、可穿戴设备以及安防,也是大象声科在应用落地与合作方面的重点方向,由此把远场拾音、声纹识别以及关键词识别等前端语音技术扩展到各种高噪音场景中去。

尽管 AI 通话智能降噪背后的技术并非噱头或是故弄玄虚,但对于消费者来说,这终究算不上杀手级应用,不少锤粉甚至在这场发布会上大喊「凉了」。从另一个角度也不难看出,手机品牌商想要持续保持高市场占有率,在性能提升、功能创新上所面临的挑战。

罗永浩也在现场回应说,锤子现在每年会发布 4、5 款手机,所以不会每一款就具有颠覆性。同时,还预告了 5 月 15 日发布会才会发布真正具有颠覆性的产品。

对于一个月后的大招,罗永浩还提供了一条线索:玄机都在锤子科技发布的愚人节视频当中。

而回顾这条视频不难发现,其中确有 AI 的浓重痕迹:智能降噪的小热身之后,锤子的重磅会是什么?

产业锤子科技坚果 3罗永浩智能语音降噪
暂无评论
暂无评论~