Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

重磅升级!标贝语音识别3.0版上线,实现更强语音识别能力

语音识别技术,也被称为自动语音识别Automatic Speech Recognition(ASR),是通过计算机自动将人类的语音内容转换为相应文字的技术。通俗来讲,语音识别就是机器的“耳朵”,在人与机器进行语音交流的时候,让机器听得懂人类在说什么的前提。

近几年,随着深度学习技术在语音识别的应用,使得语音识别的性能得到了显著提升,交互场景从生活扩展到企业应用,需求也从识别的速度、精度转移到一些更加复杂的问题,对语音交互技术提出了更高的要求。

近期,标贝科技语音识别技术3.0版发布升级。经过一年多的算法攻坚,标贝科技研发团队在前端语音信号处理、声学模型、解码方式等各项技术实现全面升级,不仅在准确率及识别速度方面有了明显提升,而且还实现了快速纠错和热词实时更新等功能,进一步满足了行业用户的需求,提升语音识别体验。

全新技术升级 语音识别更高效

●  语音转写识别率极大提升
标贝ASR3.0在conformer端到端模型结构的基础上创新改进,在建模单元上引入了音节信息,将传统的GMM-HMM的对齐信息引入到前期训练中加速收敛,实现了在复杂环境下拥有更好的鲁棒性和识别效果。

无论是不同设备录制、不同网络传输、还是带有一定噪声和干扰的语音,都可以实现准确转写。在通用场景测试中,标贝ASR3.0准确率绝对提升3%-5%,达到行业领先水平,识别速度提升将近2倍。

● 更灵活高效的解码方式

标贝ASR3.0在解码方面借鉴了传统解码器对声学、发音词典、语言模型的融合方式,通过word networks融合发音词典的方式构图,以此来达到语言模型快速优化、降低解码资源占用的目的。

不同于shallow fusion,标贝ASR3.0解码器在出词之前就加入语言模型的分数,进行解码路径的扩展,以此达到类似conformer结构中decoder部分的自回归效果。搜索时采用token passing的方式,能够轻松满足产品上对识别结果的衍生需求,比如:时间戳、置信度等功能,为不同领域客户提供更细粒度的语音识别服务。

● 热词及自定义语言模型快速生效

标贝ASR3.0兼顾了热词快速生效和自定义语言模型感知热更新的功能。对于不同的特殊场景需求,用户只需要上传热词或者更新一下对应的语言模型即可,以尽量低的成本,提供更加流畅的识别体验,不影响正常的运行使用。

更多能力加持 助力语音识别加速落地

据中商产业研究院统计,2020年中国智能语音市场规模达到113.96亿元,同比增长19.2%,预计2022年中国智能语音市场规模将增长至161.91亿元。其中,语音识别作为AI领域最为成熟落地的技术之一,也将继续加速在各垂直行业的渗透和布局。

作为国内领先的智能语音交互与AI数据服务商,标贝科技深耕语音交互领域多年,在技术创新和数据服务双轮驱动下,为AI产业打造更精准、更高效的语音识别服务。

针对专业领域应用场景,标贝科技推出“ASR自学习工具”。用户在语音识别控制台上传专有领域或行业积累的文本数据,通过对这些训练语料做模型训练,来生成自己的自学习个性化模型和热词模型,有效提高专有领域场景下的语音识别准确率

此外,为满足不同语种的客户群体需求,标贝科技语音识别今年在语种丰富度上持续发力。在支持常见中文、英文识别基础上,开放了粤语、维语两种方言识别能力。经过长期的打磨训练和效果调优,目前标贝科技语音识别各语种已广泛应用于车载语音交互、会议记录转写、视频字幕、电话录音质检等业务场景。

作为新一代智能语音识别引擎,标贝科技ASR3.0已经在官网及开放平台焕新上线,以优质的性能对外提供AI开放式服务,赋能更多对语音识别有需求的合作伙伴。标贝科技AI语音产品负责人表示:“标贝研发团队未来仍将继续打磨技术,让语音技术在复杂多变的环境里,也能实现自然、流畅的语音交互体验,为企业提供更加高效、低成本、可定制的解决方案。”


产业
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~