郑方作者林亦霖校对王菁 编辑

声纹识别:走出实验室,迈向产业化

人们通过听觉来判断说话人的身份,古已有之,正所谓“闻声知人”。对计算机来说,这种能力就是声纹识别,又称说话人识别它基于语音中所包含的说话人特有的个性信息,自动鉴别当前语音对应的说话人身份,是一种简单、优雅、安全的生物特征识别技术。经过半个多世纪的探索实践,声纹识别技术已逐渐走向成熟,迎来了历史上最佳的应用发展时期。

声纹是一种行为特征

所谓声纹,就是对语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征(参数)所建立的语音模型的总称。与指纹的唯一性类似,每个人在说话过程中所蕴含的个性特征(如发音习惯)几乎是独一无二的,就算被模仿,也改变不了说话者最本质的特性。尤其在成年之后,可以在相当长的时间里保持相对稳定不变。

声纹是一种行为特征,由于每个人在讲话时使用的发声器官如舌头、牙齿、口腔、声带、肺、鼻腔等在尺寸和形态方面有所差异,以及年龄、性格、语言习惯等多种原因,在发音时千姿百态,因而导致这些器官发出的声音必然有着各自的特点。可以说,任何两个人的声纹图谱都不尽相同。

声纹特征以声音为载体,具有以下特点

  • 交互性。声音是唯一可双向传递信号的生物特征,既可以接收信息,也可以发出信息,实现交互。

  • 便捷性。声音是唯一周边无死角的生物特征,可以实现非接触式采集,方便使用。

  • 变化性。声音是高可变性与唯一性的完美统一。没有两个声音是完全一样的,但里面所蕴含的信息,比如你是谁、你的年龄、你的情感等信息却都是唯一确定的。这种高可变性和唯一性的完美统一使得语音信号自身就具备了很强的防攻击能力。

  • 丰富性。声音有“形简意丰”的特点,它虽然只是一个一维信号,但是蕴含着丰富的信息。在相同一段语音中,除了包含说话人信息外,还包含内容、语种、性别、情绪、年龄,甚至包含出生地、身体健康状况等丰富的信息。

作为一种身份认证手段,声纹还具有如下优势:

  • 怕丢失。不同于指纹、虹膜、人脸等静态的生理特征,声纹作为一种动态的行为特征,不容易丢失,可以做到“失声(音)不失身(份)”。

  • 难以伪造。声纹蕴含于人的语音当中,而语音是千变万化的。即便人两次读相同的内容,也不可能发出完全相同的声音。正是声纹这种“蕴不变于千变万化之中”的特性,使得声纹特征更加深层、难以琢磨,伪造起来也更为困难,因而认证强度更高、更安全。

  • 隐私性弱。俗话说“身体发肤受之父母”,在一般的大众认知中,人们在很多场合下往往不愿意被拍照或者按手印,但采集一段随机跟读的声音,对于大众更加容易接受。

由于声纹具有以上特点,声纹识别技术可广泛应用于各种场景。尤其在光线或隐私等受约束的特定场景中,声纹比其他方法更加方便自然,成为首选甚至唯一的选择。

声纹技术的分类逻辑

声纹识别技术是一个统称,实际上,按照不同的应用方式和其他的一些限定,声纹识别又被分成了多个技术类别。其中,按照实际应用的方式可分为三类:

  • 声纹确认,即给定一个说话人的声纹模型和一段只含一名说话人的语音,判断该段语音是否是该说话人所说。

  • 声纹辨认,即给定一组候选说话人的声纹模型和一段语音,判断该段语音是哪个说话人所说。

  • 声纹检出和追踪,即给定一个说话人的声纹模型和一些语音,判断目标说话人是否在给定的语音中出现。如果目标说话人在语音中出现,则标示出对话语音中目标说话人所说的语音段的位置。

正因为声纹是一种动态的行为特征,在上述普遍适用于各种生物特征识别技术的分类之外,声纹识别还多了一个技术维度——它的分类与说话的内容有关。

根据声纹识别与待识别语音的文本内容的关系,声纹识别又可分为三类:

  • 文本无关,即对于语音文本内容无任何要求,说话人的发音内容不会被预先限定,说话人只需要随意录制达到一定长度的语音即可。这种方法使用起来更加方便灵活,具有更好的推广性和适应性。

  • 文本相关,即要求用户必须按照事先指定的文本内容进行发音。由于文本相关场景下,语音内容受到限定,整体随机性比文本无关场景下的小,所以一般来说其系统性能也会相对好很多。

  • 文本提示,即从说话人的训练文本库中,随机提取若干词汇组合后提示用户发音。既对语音内容的发音范围进行了限定,又通过随机组合的方式,保留了语音内容的随机性,是文本无关与文本相关的一种结合。这种方式能一定程度上避免文本相关时的假冒录音闯入问题,同时具有较高的系统性能,且实现方便,是说话人识别技术的一大热点。

不同类别的声纹识别技术之间,其采用的算法也会有细微的不同,对应的应用领域也会有所不同。无论是哪种声纹识别技术,都经过了漫长的发展过程。

从算法到工程的进化

人工分析阶段

以语音作为身份认证的手段,最早可追溯到 17 世纪 60 年代英国查尔斯一世之死的案件审判中。对说话人识别的研究始于 20 世纪 30 年代。自 1937 年的 C. A. Lindbergh 儿子被拐骗事件开始,人们针对语音中的说话人信息开展了科学的探索和研究。1945 年,Bell 实验室的 L. G. Kersta 等人借助肉眼观察,完成语谱图匹配,并首次提出了“声纹(Voiceprint)”的概念;且在 1962 年第一次介绍了采用此方法进行说话人识别的可能性。1966 年,美国法院的第一次采用“声纹”进行了取证。随着研究手段和计算机技术的不断进步,说话人识别逐步由单纯的人耳听辨,转向基于计算机的自动识别。

基于专家知识设计的特征与模版匹配方法阶段

在传统的模式识别方法中,算法的关键一般分为两个部分:特征和模型。想要准确的完成自动说话人识别,不仅需要区分性强的特征,也需要更精准和鲁棒的模型。

  • 一在特征方面:1969 年 JE Luck 首先将倒谱技术用于说话人的识别,得到了较好的效果。BS Atal 将线性预测倒谱系数 LPCC 用于说话人识别,提高了特征参数的区分精度。此后,研究者相继提出了 LPC 谱系数、 LSP 谱系数、感知线性预测系数 PLP、梅尔倒谱系数 MFCC 等说话人特征。

  • 二在模型方面: Bell 实验室的 S. Pruzanshy 提出的基于模板匹配和统计方差分析的说话人识别方法,引起信号处理领域许多学者的注意,一时间成为该领域的主流算法。后来,相继有学者提出动态时间规整 DTW、隐马尔可夫模型 HMM 等技术,也成为说话人识别的核心技术。

基于混合高斯的识别模型阶段

20 世纪 90 年代以后,尤其是 D. Reynolds 对高斯混合模型GMM做了详细介绍后, GMM 以其简单、灵活、有效以及较好的鲁棒性,迅速成了目前与文本无关的说话人识别的主流技术,将说话人识别研究带入一个新的阶段。 2000 年,D. Reynolds 在说话人确认任务中提出了高斯混合模型-通用背景模型 GMM-UBM结构,为说话人识别从实验室走向实用作出了重要贡献。进入 21 世纪,在传统GMM-UBM 的方法上, P. Kenny、 N. Dehak 等人先后提出了联合因子分析JFA 和 i-vector 模型,将说话人模型映射到低维子空间中,克服了 GMM-UBM系统中高斯分量互相独立的局限性,提高了系统性能。之后,有研究者提出将概率线性判别分析 PLDA 方法对 i-vector 进行建模,进一步提高了系统的精度。

基于数据驱动的深度特征学习与端到端学习阶段

近年来,随着深度机器学习语音识别图像处理等领域的快速发展和成功应用,基于深度学习的相关方法也逐渐应用到说话人识别中,并取得了不俗的成效。Georg Heigold 等人提出了端到端的声纹确认方法,其取网络最后一层隐藏层的激活作为说话人表征,使用余弦距离判断两个表征向量是否为同一个说话人。Mirco Ravanelli 等人提出 SincNet 架构,以 sinc 函数限定网络第一层卷积结构,让网络学习滤波器的截止频率,实现从原始语音信号直接学习,完成声纹识别任务。 Johan Rohdin 等人则模仿当前主流模型 i-vector-PLDA 模型的工作流,使用深度神经网络 DNN 实现工作流的每个部件,得到了不错的效果。

聚焦鲁棒性问题的工程化实用化技术解决阶段

随着声纹识别技术逐渐成熟、趋于实用,与声纹识别相关的鲁棒性、安全性问题,也受到了研究和开发人员的关注,包括噪声、跨信道、多说话人、身体条件变化、说话方式变化、短语音等鲁棒性问题。 2000 ~ 2010 年代,清华大学语音和语言中心对由于声纹随说话人年龄变化而发生变化从而导致系统识别性能下降的声纹时变问题进行了研究,提出了时变鲁棒的声纹特征;对使用录音和录音拼接攻击声纹识别系统这一安全问题进行了研究,并提出了切实可行的录音检测方法。

场景驱动下的商用浪潮

走出实验室的声纹识别技术因其广阔的应用场景和价值,从特定领域到民用领域,在国内外正迎来第一波商用化浪潮。

声纹辨认技术,为国家和公共安全服务

随着固定电话和移动通讯网络的发展,声纹辨认技术首先在针对特定人群的国防安全、公安技侦、司法矫正等领域投入使用,有力保障了国家和公共安全。例如在战场环境下,声纹辨认技术可察觉电话交谈过程中是否有关键说话人出现,一旦通过电话发出军事指令时,便可对发出命令者进行身份辨认(敌我指战员鉴别)。据报道,2001 年 4 月 1 日迫降在我国海南机场的美军 EP-3 侦察机就载有类似的声纹识别侦听模块。在反恐作战中,恐怖分子在作案前后的通讯中往往会包含关键内容,因此,在通信系统或安全监测系统中预先安装声纹辨认系统,可通过通讯跟踪和声纹辨别技术对罪犯进行预防和侦查追捕。据悉,拉登的落网正是美国情报部门充分利用了声纹鉴别技术。此外,声纹辨认技术还用于对满刑释放的犯罪嫌疑人进行监听和跟踪,可有效阻止犯罪嫌疑人再次犯科;针对通过电话勒索、绑架等刑事犯罪案件,公安司法人员也可利用声纹辨认技术,从通话语音中锁定嫌疑犯人、缩小刑侦范围。

声纹确认技术,为泛金融身份认证保驾护航

随着网上支付、手机支付等成为现代人购物付款的主流方式,网络支付的身份认证开始愈发重要。为防止盗刷等案件发生,将声纹确认技术加入到交易支付中,通过动态声纹密码的方式进行客户端身份认证,可有效提高个人资金和交易支付的安全。在国外,英国巴克莱银行、美国花旗银行、澳大利亚国家银行、万事达卡机构等都已开始引入声纹技术。在我国, 2016到2018年间,中国建设银行、贵阳银行、兰州银行、西安银行、中国银联、中国互金协会等多家单位与北京得意音通公司合作,由后者为其提供声纹识别身份认证服务,用于账户登录、大额转账、无卡取款、密码找回等业务场景。微信和支付宝也已上线基于声纹动态口令的登录方式。

此外,在信贷业务中引入声纹识别技术作为反欺诈手段,还可有效降低冒用他人身份进行骗贷以及多头贷款等事件的发生率。城乡养老保险是社会保障体系的重要组成部分,然而冒领养老金的事件时有发生,每年冒领总金额以亿元计,但若要求高龄老人亲临现场验明正身才能领取养老金,则会非常不便。由于声纹确认技术具有很强的远程操控属性,社保局通过预装声纹身份认证系统,可非常方便地对领养老金者开展远程身份认证,让“信息多跑路,群众少跑腿”。目前正在贵州省黔东南州开展的州一级试点,为当地各族群众提供了极大的便利。

声纹技术融合,迎个性化语音交互时代

随着语音技术的普及,越来越多的声纹识别应用场景还在不断涌现。如利用声纹确认技术,可完成个人日常生活中的各种事物访问控制的授权,比如智能手机锁屏、各类网络账号的声控密码锁、电脑声控锁、声控安全门、汽车声控锁等;利用声纹辨认技术,可支持智能音箱、智能语音助手等提供个性化服务,如针对家庭用户中的老年人、儿童等不同年龄段用户,按照兴趣推荐不同的歌曲、新闻,以及开放特定的功能权限等;利用声纹检出和追踪技术,可取代人工完成会议纪要,通过语音识别和声纹识别技术的结合,将会议录音通过语音识别技术识别说话内容、通过声纹识别技术标注每段话所对应的说话人,即可轻松完成多人会议记录,大大提高工作效率。需要注意的是,这些新兴需求大部分还处在探索阶段。

总的来说,随着技术的不断成熟和融合,声纹识别技术将逐渐融入人们的日常生活,根据不同应用场景的特点进行针对性开发,将产生巨大的应用价值。

后标准时代的趋势与挑战

为规范和正确引导声纹识别发展,国内已公布多项关于声纹识别的标准。2008年,原信息产业部正式颁布实施了《自动声纹识别(说话人识别)技术规范》,这是我国第一个关于声纹识别的行业标准。2010 年 12 月 2 日,公安部颁布实施了《安防声纹确认应用算法技术要求和测试方法》。2018年10月9日,中国人民银行正式对外发布《移动金融基于声纹识别的安全应用技术规范》金融行业标准,这是第一个被金融监管部门认可的生物识别标准,为声纹识别技术进入移动金融领域解决了标准难题。

央行标准的颁布,为声纹识别技术进入移动金融领域解决了标准难题,金融科技一跃成为声纹识别时下最热门的应用领域之一,2018 年也因此成为声纹技术的应用“元年”。

从技术发展来看,声纹识别当前还存在以下几个挑战:

  • 鲁棒性挑战。鲁棒性是指声纹识别抵抗其他因素干扰的能力。这些干扰可能来自说话人自身,比如说话人随着身体状况改变而发声的声音改变、随着年龄增长而发声的声音变化、不同情感、语气、语速情况下的声音变化。也可能来自说话人之外,比如噪声干扰、远场情况下收录到的声音发生的变化。如何在众多干扰之下,精准的对声纹进行识别,是一个重要的研究方向。

  • 防攻击挑战。防攻击是指声纹识别系统拒绝非真实说话人的能力。这些尝试进入系统的声音,可能是由人类模仿发声的,也可能是机器伪造的,比如通过语音合成、声音转换以及录音重放技术,产生出和真实说话人相近的声音,尝试进入系统。如何阻止这些假冒语音通过系统,是一个重要的研究方向。

  • 超短语音挑战。短语音是指系统的识别性能对语音长度的依赖性。较长的语音会达到更高的精准度,但显然,过长的语音会影响用户体验。并且在一些特定场景下,比如司法应用中,系统只能收集到有限长度的语音。因此,如何在较短语音长度的情况下,提高系统的识别性能,也是一个研究方向。

众多的挑战,预示着声纹识别的完善之路还很长。而相关标准的发布,标志着声纹识别正受到国内各界的认可,并吸引了越来越多的从业者进入此领域。然而技术发展自有其规律,热度之下仍需冷静,有序推进方为正道。相信在标准的正确引导和业界的共同努力下,拥有广阔应用场景的声纹识别未来定能在各个领域开花结果,走进更多普通人的生活。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业声纹识别
2
相关数据
来也机构

「来也」是国内领先的人工智能交互平台,由常春藤盟校(Ivy League)归国博士和MBA团队发起,核心技术涵盖自然语言处理(NLP)、多轮对话控制和个性化推荐系统等。公司已获得数十项专利和国家高新技术企业认证。 来也的愿景是通过AI赋能,让每个人拥有助理。C 端产品小来是智能化的在线助理,通过业内创新的AI+Hi模式,提供日程、打车、咖啡、差旅和个性化查询等三十余项技能(覆盖400w用户和数十万服务者),让用户用自然语言发起需求并得到高效的满足。B端品牌吾来输出知识型的交互机器人和智能客户沟通系统,帮助各领域企业客户打造行业助理。目前已经在母婴,商旅,金融和汽车等行业的标杆企业实现商业化落地。

https://www.laiye.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

说话人识别技术

说话人识别作为模式识别的一类,主要任务是通过待测试语音来判断对应的说话人身份。 从识别对象进行划分可以主要分为两个部分:说话人确认(speaker verification)和说话人辨认(speaker identification)。如果待测说话人的范围已知,需要通过语音段对待测说话人的身份进行判断,是否是属于某个说话人,则为说话人确认。说话人确认问题可以归结为是一种1:1的身份判别问题。若说话人的身份范围未知,需要从一定的范围内来对语音段对应的说话人身份进行辨别,这属于说话人辨认问题。说话人辨认问题可以归结为是1:N的问题。 从识别语音段的文本,可以讲说话人识别问题分为文本相关问题和文本无关问题。对于文本相关问题,待测试语音段的内容需要和系统中预先登记的内容相同。对于文本无关问题,待测试语音段的内容可以与系统中预先登记的内容不同,待测试说话人可以只说几个字来进行身份认证。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

线性判别分析技术

线性判别分析 是对费舍尔的线性鉴别方法的归纳,这种方法使用统计学,模式识别和机器学习方法,试图找到两类物体或事件的特征的一个线性组合,以能够特征化或区分它们。所得的组合可用来作为一个线性分类器,或者,更常见的是,为后续的分类做降维处理。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

高斯混合模型技术

高斯混合模型(Gaussian Mixture Model,GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

隐马尔可夫模型技术

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

因子分析技术

因子分析在统计学中是一种常用的降维方法,目的在于用更少的、未观测到的变量(factor)描述观测到的、相关的变量。更准确的来说,因子分析假设在观测到的变量间存在某种相关关系,从观测变量的矩阵内部相关关系出发找到潜变量(latent variables)从而使得潜变量和观测变量之间的关系成立

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

暂无评论
暂无评论~