搜狗发布「个性化语音识别」技术,语音输入将更懂用户

近日,搜狗输入法发布新版本,发布“个性化语音识别”服务,用户只需更新后点击APP选择一键登陆账户,即可体验。成功开启“个性化语音识别”后,用户选择搜狗语音输入按钮,可以发现输入法已强化学习了用户的个人词汇。据了解,该功能将有效提升用户个性化特色词句的语音识别准确率,降低用户在输入过程中的手动修改次数。

搜狗率先在语音输入领域实现“个性化识别”

得益于能解放双手的便捷性,语音输入自面世以来就备受大众青睐。但如何实现“听懂”用户,并快速、准确的呈现出用户“所说”,一直是语音输入领域面临的一大技术难题,尤其是对极具用户个人属性词句的精准识别。比如,用户需要的是“刘也、梓轩、程志”,语音输入后得到的很可能是“刘烨、子萱、诚挚”……诸如此类未基于用户个人特色针对性语音识别的结果,往往需要用户再费时费力手动调整,反而在一定程度上损害了语音输入的用户体验。

针对这一问题,搜狗语音此次率先推出“个性化语音识别”,可基于其大数据及领先的AI(人工智能)语音技术的支持,构建起个人化、个性化的用户专属输入法服务,从而大幅提高“个人高频词汇”的识别精准度,降低用户的手动修改率。

可以说,凭借“个性化语音识别”,搜狗率先在语音输入领域真正实现了“更懂用户”,切实提升了每一个用户日常生活中表达、传递信息的效率。

满足你语音输入的更多需求,搜狗攻克“技术堡垒”

对于语音识别技术而言,目前市面上能够见到的语音输入产品和工具,在通用场景下的识别准确率基本都能“听懂”用户;但因为准确率一旦达到一定高度,相对再每提升百分之一都要面临极大的技术难度。

目前,搜狗通用语音识别已经全面使用了行业前沿的深度学习技术,其中基于DTSS(Deep Transformer-based Sequence to Sequence model)的端到端声学模型、神经网络语言模型和智能标点预测等技术,有效推动了搜狗语音识别的通用效果和体验,这在行业中处于领先水平。此番,“个性化语音识别”可以针对用户的语音输入习惯精准优化,从而使得在保障通用识别准确的情况下,用户常用语的字错误率相对下降近40%。极大的减少了修改成本,可谓是攻克中文语音识别这一“技术堡垒”至关重要的一步。

搜狗之所以能率先实现“个性化语音识别”,主要原因有二:一是用户大数据的沉淀与积累,二是搜狗本身就保持领先且持续快速发展的AI技术。

首先,搜狗输入法拥有大数据优势,这是搜狗语音输入识别的“护城河”,也是其他企业及产品难以比及的地方。以此为基础,搜狗通过大数据挖掘处理,使得语音识别准确率大幅提升。在提升识别准确率的同时,搜狗语音创新式的技术流程,让云端系统极大程度上保证了用户个性化特征的自动处理速度,实现整个学习个性化特征的过程在“毫秒级别”就可以全部自动完成。

其次,搜狗AI技术蓬勃发展,一方面,不仅拥有以语音交互为核心的人工智能平台“搜狗知音”,使得搜狗在语音识别、语义理解等方面具备领先优势,另一方面,其业界领先的语音修改能力、智能断句、标点预测、识别结果顺滑,以及成绩斐然的自然语言处理技术都能更好地帮助提升“个性化语音识别”的准确率。

个性化语音识别将带来全新产品门类,颠覆传统“人机互动”

语音识别一直是人机交互、人工智能链接传统产业的一项关键性技术,直接影响着未来社会的智能化发展进程。因为在智能家居、智能教育、智能医疗等与用户日常生活息息相关的各个产业领域,让智能设备“听懂”我们说话是实现自然交互的先决条件。

当前,语音识别已基本实现“出口成章”。此次搜狗的“个性化语音识别”,可谓再次撕开语音识别技术瓶颈,增加了行业对于人机交互实现“千人千面”的信心。未来,搜狗语音将会持续提高和完善语音输入识别技术,持续优化“个性化语音识别”服务。相信随着语音识别技术的不断突破和用户个性化内容的不断丰富,搜狗或将形成“消费级”的语音个性化生态资源,全面实现定制化语音输入。从而使每个用户都能使用 “更懂自己”的搜狗语音识别技术,在生活、出行、工作中大幅提升人机沟通效率,帮助人们表达和获取信息更简单。

产业语音识别搜狗
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~