语音识别技术,也被称为自动语音识别Automatic Speech Recognition(ASR),是通过计算机自动将人类的语音内容转换为相应文字的技术。通俗来讲,语音识别就是机器的“耳朵”,在人与机器进行语音交流的时候,让机器听得懂人类在说什么的前提。
近几年,随着深度学习技术在语音识别的应用,使得语音识别的性能得到了显著提升,交互场景从生活扩展到企业应用,需求也从识别的速度、精度转移到一些更加复杂的问题,对语音交互技术提出了更高的要求。
近期,标贝科技语音识别技术3.0版发布升级。经过一年多的算法攻坚,标贝科技研发团队在前端语音信号处理、声学模型、解码方式等各项技术实现全面升级,不仅在准确率及识别速度方面有了明显提升,而且还实现了快速纠错和热词实时更新等功能,进一步满足了行业用户的需求,提升语音识别体验。
全新技术升级 语音识别更高效
● 语音转写识别率极大提升
标贝ASR3.0在conformer端到端模型结构的基础上创新改进,在建模单元上引入了音节信息,将传统的GMM-HMM的对齐信息引入到前期训练中加速收敛,实现了在复杂环境下拥有更好的鲁棒性和识别效果。
无论是不同设备录制、不同网络传输、还是带有一定噪声和干扰的语音,都可以实现准确转写。在通用场景测试中,标贝ASR3.0准确率绝对提升3%-5%,达到行业领先水平,识别速度提升将近2倍。
● 更灵活高效的解码方式
标贝ASR3.0在解码方面借鉴了传统解码器对声学、发音词典、语言模型的融合方式,通过word networks融合发音词典的方式构图,以此来达到语言模型快速优化、降低解码资源占用的目的。
不同于shallow fusion,标贝ASR3.0解码器在出词之前就加入语言模型的分数,进行解码路径的扩展,以此达到类似conformer结构中decoder部分的自回归效果。搜索时采用token passing的方式,能够轻松满足产品上对识别结果的衍生需求,比如:时间戳、置信度等功能,为不同领域客户提供更细粒度的语音识别服务。
● 热词及自定义语言模型快速生效
标贝ASR3.0兼顾了热词快速生效和自定义语言模型无感知热更新的功能。对于不同的特殊场景需求,用户只需要上传热词或者更新一下对应的语言模型即可,以尽量低的成本,提供更加流畅的识别体验,不影响正常的运行使用。
更多能力加持 助力语音识别加速落地
据中商产业研究院统计,2020年中国智能语音市场规模达到113.96亿元,同比增长19.2%,预计2022年中国智能语音市场规模将增长至161.91亿元。其中,语音识别作为AI领域最为成熟落地的技术之一,也将继续加速在各垂直行业的渗透和布局。
作为国内领先的智能语音交互与AI数据服务商,标贝科技深耕语音交互领域多年,在技术创新和数据服务双轮驱动下,为AI产业打造更精准、更高效的语音识别服务。
针对专业领域应用场景,标贝科技推出“ASR自学习工具”。用户在语音识别控制台上传专有领域或行业积累的文本数据,通过对这些训练语料做模型训练,来生成自己的自学习个性化模型和热词模型,有效提高专有领域场景下的语音识别准确率。
此外,为满足不同语种的客户群体需求,标贝科技语音识别今年在语种丰富度上持续发力。在支持常见中文、英文识别基础上,开放了粤语、维语两种方言识别能力。经过长期的打磨训练和效果调优,目前标贝科技语音识别各语种已广泛应用于车载语音交互、会议记录转写、视频字幕、电话录音质检等业务场景。
作为新一代智能语音识别引擎,标贝科技ASR3.0已经在官网及开放平台焕新上线,以优质的性能对外提供AI开放式服务,赋能更多对语音识别有需求的合作伙伴。标贝科技AI语音产品负责人表示:“标贝研发团队未来仍将继续打磨技术,让语音技术在复杂多变的环境里,也能实现自然、流畅的语音交互体验,为企业提供更加高效、低成本、可定制的解决方案。”