产业资讯方案大厅机构大厅

Pyramidal-FSMN

卷积神经网络广州云从信息科技有限公司

产品描述

云从科技此次推出的语音识别模型 Pyramidal-FSMN 融合图像识别与语音识别的优势,将残差卷积网络和金字塔记忆模块的序列记忆网络相结合, 能够同时有效的提取空间和时间上不同粒度的信息,对比目前业界使用最为广泛的 LSTM 模型,训练速度更快、识别准确率更高。

云从科技核心技术闭环包括人脸识别、智能感知与智能分析三个阶段。语音识别技术是智能感知的重要部分,通过语音识别,机器就可以像人类一样理解语言,进而能够展开处理,进行反馈。 1、采用了由 6 层 ResidualCNN 和 10 层 Pyramidal-FSMN 相结合的网络结构。 2、前端网络借鉴了图像识别中经典的 Residual CNN 结构,更有效地提取特征与时间相互的关联信息,同时 skipconnection 避免了 CNN 网络加深之后梯度消失和梯度爆炸问题。 3、在金字塔记忆模块中,浅层的网络主要聚焦于音素本身的特征学习,所以只需抽取短时上下文信息,而深层的网络由于已经学习到了足够的固定时间的音素信息,需要学习长时间包括语义和语法特征,所以深层抽取长时间的上下文信息。 4、利用这样的金字塔结构,既能减少参数,缩小模型结构,也能更加精巧的模拟人类处理语音信号的过程,提高识别效果。

所用技术

研发机构