郑方作者

清华大学郑方:语音技术用于身份认证的理论与实践

本讲座选自清华大学语音和语言技术中心主任郑方教授近期于清华大数据“技术·前沿”系列讲座上所做的题为《语音技术用于身份认证的理论与实践》的演讲。

以下为演讲的主要内容:

郑方:今天,我所讲的关于语音技术用于身份认证的理论与实践,主要分为两个方向:

  • 一是更高的安全保障

  • 二是更低的隐私泄露

内容则分成四个方面:

  • 一是身份认证的技术要求

  • 二是语音信号的特点分析

  • 三是安全保障和隐私保护

  • 四是语音处理技术的实践

一、身份认证的技术要求

1. 网络空间身份认证

“网络空间身份认证”事关新时代的国家安全、经济安全、社会稳定、民众福祉等,这其中包括五个方面:

  • 一是网络空间已成为国际反恐新阵地

  • 二是网络安全风险向更多终端蔓延;

  • 三是信息资源共享开放面临认证瓶颈;

  • 四是个人信息倒卖助长“黑色产业链”;

  • 五是认证漏洞威胁公民财产生命安全。

2. 身份认证的三个层级

网络空间身份认证分为三个层级:第一层级是实名;第二层级是实证;更高的层级是实人,即人本身必须是真实的。

3. 各国政府解决方案和路线图比较

各国政府解决方案和路线图也各有不同,欧美等发达国家在这方面早有布局。

比如,欧盟于2006年发布了《2010年泛欧洲eID管理框架路线图》(eID即电子身份证),计划用五年实现欧洲联盟电子政务的身份管理。

美国于2011年发布了《网络空间可信身份国家战略》,计划用十年的时间,建设一套公民的身份认证生态体系。

中国起步比较晚。2013年底,中国通信标准化协会专门设立了“网络空间身份管理标准工作组”,公安部三所正在牵头制定30多项eID国家及行业标准。

另外,公安部一所在2016年研发了“网络可信身份认证服务平台”,每个人都可在网上生成终生唯一编号的“身份证网上副本”;同时,由公安部一所牵头,清华大学也参与共建了多维身份识别和可信认证国家工程实验室。

2012年7月,为了满足市场需求和应付网上验证的要求,线上快速身份验证联盟(FIDO)成立。它主要通过两个子协议实现安全的登录,第一个协议UAF(通用认证框架),支持指纹、语音、虹膜等生物特征识别;第二个协议U2F是关于使用PIN和USB棒或者支持NFC手机的认证协议。

4. 生物特征(生理特征+行为特征)

我们发现,不管是中国公安部一所还是FIDO联盟,都已经开始考虑使用生物特征。那么什么是生物特征呢?生物特征分为生理特征和行为特征。其中,生理特征包括指纹、人脸、虹膜、掌纹、DNA等,理特征的最大特点是从出生到去世基本不变

第二类特征是行为特征。它既有生理方面的一些特征,同时又有一些行为方面的特征;比如,签名、步态、声纹。

可以参考的第一个事件是去年12月26号在广州市的南沙区推出的微信身份证“微证”,第二个事件是江西共青城做的一个网络电子身份标识的手机贴膜卡(SIMEID)。

5. 公民关注的焦点

公民关注的焦点主要分为两个方面:

  • 一是生物特征的安全性——防攻击性能如何?

  • 二是生物特征的隐私性——生物特征丢了怎么办?

所以,网上出现一句话“丢脸即丢人”,这是最大的问题。

我们发现生理特征具有很多类似的特点,即不可撤销性。比如,虹膜是不能防攻击的。

同时,指纹识别、人脸识别也具有不能防攻击的特性。

刷脸也存在安全问题,只需采用一些传统方法,就可以轻易攻击某些基于AI安全手段的系统。

欧盟于今年5月25日发布了一个GDPR条例,即通用数据保护规范。它是对我们企业影响非常大的条例,不仅是适用于欧盟的组织,而且适用于在欧盟拥有客户和联系人的组织;只要跟欧盟有关系,它都会保护,所以对产业具有非常巨大的影响。

无监督身份认证的技术要求包含五个方面:

  • 一是人证合一性,用来进行身份认证的特征,一定要具有唯一性,并且识别技术要有准确性;

  • 二是不易伪造性

  • 三是意图真实性

  • 四是证据可溯性

  • 五是认证便宜性

二、语音信号的特点分析

语音特征具有的优势包括:

  • 第一,语音获取自然、方便,易于接受;

  • 第二,语音采集和传输成本低廉,使用简单;

  • 第三,用户交互性强,易防止假冒闯入;

  • 第四,可以结合业务

  • 第五,可以体现用户真实意图

它的劣势包括:

  • 一是不直观,看不见摸不着;

  • 二是时变性,随着年龄等会有变化;

  • 三是弱可获得性,不同于人脸可以从身份证系统获得,声纹每次需要预留;

  • 四是弱抗噪性,类似于手指(指纹)脏了。

总结一下,语音主要有以上三个比较突出的特点。

上图是计算机眼中的语音。

语音信号是一维信号,形简意丰,包含很多丰富的信息。比如,语音内容、说话人、语音、性别、情感等。

如上图所示,语音信号包含多层信息。第一层面是语言信息,句子、句式、焦点、因素等都可以在其中体现出来;第二层面是副语言信息,包括音高、音质量、语调等,蕴含了说话人的态度、情感、意图、方言等等多方面信息;第三层非语言信息,比如健康状况、性别、年龄等。

身份识别是指对人的身份通过语音信号中所蕴含的信息来进行判别的自动化技术。

总体来讲,可以分为四类:

  • 第一,声纹辨认。判定测试语音属于目标说话模型集合中哪一个人。辨认是“多选一”的 “选择”问题;

  • 第二,声音确认。确认测试语音是否来自所声明的目标说话人。确认是“一对一”的“判别”问题;

  • 第三,说话人检出。判断测试语音中是否存在目标说话人;

  • 第四,检出的扩展。判断目标说话人在测试语音中的发音位置。

第二种分类方法是按照说话内容的限定性,分为:

  • 文本相关

  • 文本无关

  • 文本提示

所谓文本无关是指声纹识别系统对发音内容无任何要求,说话人可随意录制或发音一定长度的语音;所谓文本相关是指声纹识别系统要求说话人必须发音事先指定的文本内容;所谓文本指示是指声纹识别系统从训练文本库中随机提取若干词汇组合后提示用户发音的文本内容,一般需要结合ASR。

对于声纹确认性能的评价,我们会使用到EER 和DET曲线。DET曲线由两个坐标组成,横坐标是FAR,纵坐标是FRR,FAR是指错误的预警、错误的接受,与安全性对应;FRR是指错误拒绝,与用户体验对应。当两个错误率相等时,即FAR=FRR,称之为等错误率(EER)。等错误率可以平均地表现系统的好坏,衡量的标准是等错误率离原点越近系统越好,离原点越远系统越差。

同时,我们也会用到检测代价函数(DCF),DCF值是FAR和FRR的加权和。DCF值将FAR和FRR不同重要性量化,值越小,系统性能越好越好。

声纹识别辨认有两种:

  • 一是开集声纹辨认

  • 二是闭集声纹辨认

对于声纹识别的技术发展历程,我们可以按照两个维度来看,一是特征域,二是模型域,每个域的发展都经历了非常漫长的过程。

现在比较多的模型是GMM—UBM,它将GMM(高斯混合模型)和UBM(通用背景模型)放到一起来进行说话人识别,提高了准确率

说话人识别技术经历的很多发展基本很多都是利用了一个概念,即Supervector(超向量)。

说话人识别需要解决的问题非常多,可以分为三类:

  • 第一是环境相关的鲁棒性,包括背景噪音、跨信道、多说话人;

  • 第二是说话人相关的鲁棒性,包括身体条件变化、年龄变化、说话方式变化;

  • 第三是应用相关的鲁棒性,比如防假冒攻击、短语音的用户体验、真实意图检测、语音编码兼容性等。

三、隐私保护和安全保障

我们发现,身份认证其实涉及了安全性和方便性的一对矛盾共同体。有时候完全强调方便性不行,完全考虑安全性也不行。

声纹识别系统的常见攻击手段分为直接攻击和间接攻击,可能的攻击点存在8个方面,如上图所示。

常见的攻击手段有四类:

  • 第一类叫声音模仿

  • 第二类叫语音合成

  • 第三类叫语音转换

  • 第四类叫语音重放

其中,声音模仿是模仿说话韵律和说话风格,未见研究证明其具有显著威胁性,暂无防御的必要性。

语音合成是合成特定说话人的语音。一方面,可以通过参数合成方法,估计关键参数;另一方面,可以通过发声器模型,人工制造语音发生攻击。

语音合成和语音转换都要通过一个计算机系统把声音生成出来,然后再播放。这个放的过程和录音重放是一样的,所以从研究的角度讲,只要把录音重放检测做好了,其他的问题便都可以解决。

实际上,录音重放的检测有很多方法可以做到。比如数据追踪,即对比当前语音和历史验证语音是否存在相同声纹水印。

所谓信道检测是指检测模型预留和识别测试之间的信道差异。

如上图所示,既有信道模式噪音,又有远场混响。

基于倒谱分析设计各类特征,区分重放前后的语音,不同子频带具有不同的录放检测功能。

还有一种方法是利用活体检测麦克风所接收的语音是来自真人发音还是机器放音。

第一个方案是喷麦现象的检测。比如,任何一个正常人说话,都会有“噗”的声音。但是如果是录音机放的声音,就没有喷麦现象。

更复杂的是通过多普勒雷达,人在正常说话的时候,嘴巴一张一合,口腔中有不同的反射。用一个发射器发出20K赫兹的信号,出来之后,如果这边是真人在说话,信号经过口腔的反射,接收到的反射频率不一样,老在变;但如果是录音机放的声音,就没有这个变化。

所以,我们发现不管通过软件还是硬件,声纹的防攻击都是低成本。

我们总结一下发现,应对直接攻击的对策是用录音检测,间接攻击的对策是加强软件安全,修复系统漏洞。

声纹的防攻优势,一是特征提取,体现了多层。我们在特征提取信号域要进到频率域,做一些处理,最后再到倒谱域,这才取得的第一道特征。

最近的JFA、i-vecter等是基于来自GMM-UBM的超向量。

防攻击的第一个是基础策略,综合利用语音识别和声纹识别。

第二是增强策略,比如录音检测、用户自定义密码等。

唇语有语音的信息、身份的信息,并且和语音很像,唇语和语音结合起来就是双特征双活体检测

什么叫被知情?如果没有用户真实意图检测的话,会出现上图所示的场景:“老公,看一眼手机呗”。如果“老公”一看,就会刷脸支付。

语音的特点是非常方便,它是更高安全,更低成本和更低隐私的声纹+的结构。

除了虹膜在人证合一准确率方面是最好的之外,声纹在不易伪造、意图真实、证据可追溯、认证便宜方面都是最好的,符合性最大。

上表是我们把各种不同的生物特征进行的一个比较。其中,声音的隐私风险最低。用一句话表达的话,便是“失声(音)不失身(份)”。

“声纹+”方案有三个特点:

  • 一是高精度

  • 二是高安全

  • 三是低隐私

为什么有这三个特点呢?因为有三个方面的原因。一是语音信号本身的特点;二是语音算法的优势;三是低的成本。低的成本包括信号本身的采集和传输,也包括计算成本都很低,所以“声纹+”是最好的解决方案。

四、语音处理技术的实践

其他的AI领域包括社保、汽车、移动、保险、国家信息中心、公安系统等。

公有云的试验已经逐步推开,涉及的领域包括移动金融、电子政务、社保的身份认证、电话反欺诈、汽车锁、考勤、门禁等领域。

上图是“声纹+”的未来的场景,特点是便宜(方便和低成本)。在加油站、宾馆、无人商店、ATM机都可以装一些麦克风,需要认证的时候对它说一下。而不需要依赖于任何一个企业,任何一个应用或平台。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

理论高斯混合模型语音合成鲁棒性声纹识别无监督身份认证人脸识别指纹识别生物特征语音识别清华大学
2
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

说话人识别技术

说话人识别作为模式识别的一类,主要任务是通过待测试语音来判断对应的说话人身份。 从识别对象进行划分可以主要分为两个部分:说话人确认(speaker verification)和说话人辨认(speaker identification)。如果待测说话人的范围已知,需要通过语音段对待测说话人的身份进行判断,是否是属于某个说话人,则为说话人确认。说话人确认问题可以归结为是一种1:1的身份判别问题。若说话人的身份范围未知,需要从一定的范围内来对语音段对应的说话人身份进行辨别,这属于说话人辨认问题。说话人辨认问题可以归结为是1:N的问题。 从识别语音段的文本,可以讲说话人识别问题分为文本相关问题和文本无关问题。对于文本相关问题,待测试语音段的内容需要和系统中预先登记的内容相同。对于文本无关问题,待测试语音段的内容可以与系统中预先登记的内容不同,待测试说话人可以只说几个字来进行身份认证。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

高斯混合模型技术

高斯混合模型(Gaussian Mixture Model,GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

暂无评论
暂无评论~