有消息称,华为将在7月27日新品发布会上推出新款笔记本MateBook X Pro,其首次使用声纹识别技术。如果该技术体验完美,或将引发新一轮的人机交互体验新革命。
1、发展历史
声纹(Voiceprint)是指蕴含在人类声音中的语音特征,它能够唯一地标识用户身份。声纹识别(Voiceprint Recognition)的技术,也就是把不同说话人的语音,按照说话人身份区分开来的技术。
“声纹”一词最早出现在美国《田纳西民报》(The Tennessean)1918年10月26日版的一则短文中,当时并不有什么技术性指标。
1935年2月1日,在美国《匹兹堡报》(The Pittsburgh Press)上,第一次介绍了侦探界开始使用声纹进行犯罪侦查的故事。根据描述,当时的侦探使用示波器记录的波形图(oscillograph)来辨别不同人的声音,尤其是可以判断出一个人的口音及国籍。
而专业科技文献中有关声纹的研究,则发表于1962年的《美国声学学会期刊》。在这篇题为“声纹鉴定”的文章中,作者提出了一种基于时频谱(spectrogram)图像的方法。1966年,美国法院第一次采用“声纹”进行了取证。
为规范和正确引导声纹识别发展,国内已公布多项关于声纹识别的标准。2008年,原信息产业部正式颁布实施了《自动声纹识别(说话人识别)技术规范》,这是我国第一个关于声纹识别的行业标准。2010年12月2日,公安部颁布实施了《安防声纹确认应用算法技术要求和测试方法》。
2018年被称为声纹技术的应用“元年”。10月9日,中国人民银行正式对外发布《移动金融基于声纹识别的安全应用技术规范》金融行业标准,这是第一个被金融监管部门认可的生物识别标准,为声纹识别技术进入移动金融领域解决了标准难题。
此后,随着人工智能技术的进一步突破,声纹识别技术得到快速发展。头豹研究院的研究报告指出,截至2022年5月,中国声纹识别技术相关专利申请量达2765项,其中2018年之后专利申请量呈迅猛增长态势,主要分布在智能客服、移动支付、金融安全等业务场景。
2、技术演变
每个人所发出的声音都具有不同的特征,使得通过人类个体说话时不同语音特征来区分用户个人成为了可能。
作为生物特征识别的一种,声纹具有天然的“非接触”特性,具有隐私涉及更少、接受度高、成本低、伪造难等优势。
从技术发展角度来说,声纹识别技术经历了三个大阶段:基于模板匹配的声纹识别技术;基于统计机器学习的声纹识别技术;基于深度学习框架的声纹识别技术。
最早的声纹识别技术框架,是一种非参数模型,基于信号比对差别,通常要求注册和待识别的说话内容相同,属于文本相关,因此局限性很强。
受益于统计机器学习的快速发展,声纹识别技术也迎来了第二阶段。此阶段可细分为四个小阶段,即GMM>GMM-UBM/GMM-SVM>JFA>GMM-iVector-PLDA。
随着深度神经网络技术的迅速发展,声纹识别技术也逐渐采用了基于深度神经网络的技术框架,目前有DNN-iVector-PLDA和最新的End-2-End。其中,
基于深度神经网络(DNN)的方法(D-Vector):DNN可以从大量样本中学习到高度抽象的音素特征,同时它具有很强的抗噪能力,可以排除噪声对声纹识别的干扰;
端到端深度神经网络(End-2-End):自神经网络自动提取高级说话人特征并进行分类。
不难看出,声纹识别的研究趋势正在快速朝着深度学习和端到端方向发展,其中最典型的就是基于句子层面的做法。在网络结构设计、数据增强、损失函数设计等方面还有很多的工作去做,还有很大的提升空间。
在利用深度学习和神经网络对声纹识别技术进行研究后,涌现了众多在声纹识别技术方面的重量级的公司和大学。美国的谷歌公司、约翰斯·霍普金斯大学(JHU),以及国内的百度公司、上海交通大学等都是这一领域的领跑者。
3、市场需求
早晨到公司,点开考勤APP说一声“早上好”完成打卡;下班回家朝着智能门锁喊声“开门”,门禁系统应声而开;手机银行办理业务时,按要求朗读口令实现安全登录和实名验证……
经过半个多世纪的探索实践,声纹识别技术已逐渐走向成熟,应用场景不断涌现。如:
利用声纹确认技术,可完成个人日常生活中的各种事物访问控制的授权,比如智能手机锁屏、各类网络账号的声控密码锁、电脑声控锁、声控安全门、汽车声控锁等;
利用声纹辨认技术,可支持智能音箱、智能语音助手等提供个性化服务,如针对家庭用户中的老年人、儿童等不同年龄段用户,按照兴趣推荐不同的歌曲、新闻,以及开放特定的功能权限等;
利用声纹检出和追踪技术,可取代人工完成会议纪要,通过语音识别和声纹识别技术的结合,将会议录音通过语音识别技术识别说话内容、通过声纹识别技术标注每段话所对应的说话人,即可轻松完成多人会议记录,大大提高工作效率。
中国声纹识别行业企业发展可分为三个阶段:第一批公司为2000年前后成立的老牌语音厂商,如科大讯飞、捷通华声,综合实力雄厚;第二批公司为2005年前后成立的深耕声纹识别技术的专业厂商,如得意音通、厦门天聪,技术能力过硬,为行业标准的制定者;第三批公司为2015年前后成立的AI创业公司,如快商通、国音智能,凭借强大的研发能力发展迅猛。
头豹研究院预计,2026年中国声纹识别系统行业市场规模将达49.76亿元,2021-2026年该行业的复合年均增长率将达25.26%。
海报信息显示,华为首款声纹识别笔记本将于7月27日亮相。据业内人士预测,华为的声纹识别技术会应用在笔记本解锁、支付和会议记录等场景。
回顾过去,每一代华为笔记本电脑新品都会带来开创性的功能,比如第一代产品发布支出的一碰传、一键热点等功能,第二代产品推出时的多屏协同等功能,第三代产品推出时的软件市场等功能。
此次,华为Matebook X Pro应用声纹识别技术是否会在笔记本电脑领域应用带来全新交互方式,尚待观察。
资料来源:
https://baijiahao.baidu.com/s?id=1721897322841492473&wfr=spider&for=pc
https://www.fujitsu.com/cn/solutions/infrastructure/voiceprint-monitoring/
https://blog.sciencenet.cn/blog-1375795-1320480.html
https://mp.weixin.qq.com/s/9ypGjreNoavnoa_DRXtYeA
https://mp.weixin.qq.com/s/PmHRR7_krg88rZICzQtPbg
https://mp.weixin.qq.com/s/CNrEHG4JMZT5OT9IfPV1ig