研究人员通过对人类听觉处理进行建模来改进机器人的语音识别
我们很少想到噪音,因为我们正在倾听它们,但是在拥挤的城市广场和繁忙的百货商店等地方隔离音频存在着巨大的复杂性。在我们的听觉路径的较低层次中,我们将个体来源与背景隔离,将它们在空间中定位,并检测它们的运动模式 - 所有这些都在我们计算出它们的背景之前。受到这种神经生理学的启发,一组研究人员在 Arxiv.org (http://arxiv.org/) 的预印纸上分享了这一文章(「使用仿生双耳声源定位的增强型机器人语音识别」),该设计旨在测试地貌(即面部特征)对其的影响。声音识别的组成部分,如声源定位(SSL)和自动语音识别(ASR)。正如研究人员指出的那样,躯干,头部和耳廓(耳朵的外部部分)吸收并反射声波,因为它们接近身体,根据声源的位置修改频率。它们前往耳蜗(内耳的螺旋腔)和内部的 Corti 器官,产生神经冲动以响应声音振动。这些冲动通过听觉神经系统传递到耳蜗核,这是一种将信息转发到两个结构的中继站:内侧上橄榄(MSO)和侧上橄榄(LSO)。(MSO 被认为有助于定位左侧或右侧的角度以精确定位声音源,而 LSO 使用强度来定位声源。)最后,它们被整合到大脑的下丘(IC)中。