在人机(电脑)交互(HCI)和人机(机器人)交互(HRI)中,通常需要解决多方对话问题。例如,如果两个或更多个人参与对话,则在自动语音识别(ASR)和自然语言处理(NLP)之前要解决的一个重要任务是将某一时间的语音段正确地分配给相应的说话者。在语音和语言处理文献中,这个问题被称为语音身份分离,或“who speaks when?”。
在正式场景中,例如会议中,语音身份分离要更简单一些,因为(i)语音和非语音之间的明确区分和(ii)语音段之间存在短暂的无声区间。此外,参与者是坐着的,或者是静止的,并且通常有专用的近场麦克风和摄像头。如果只有单峰数据可用,这个任务实际上是非常困难的。声学数据本质上是模糊的,因为它们包含由几个人发出的混合语音信号,同时还会被混响,被其他声源和背景噪声破坏。同样地,从视觉数据中检测说话人是非常具有挑战性的,并且仅限于从人的正面近距离图像检测嘴唇和面部运动:而在更一般的应用场景中,例如非正式聚会,人们并不总是面对摄像机,因此唇读不能轻易实现。因此,一个有趣且有前途的替代方案包括组合音频和视觉数据的优点。这两种方式提供了补充信息,因此语音身份分离的视听方法可能比纯音频或仅视觉方法更强大。
总结一下,语音身份分离的任务是检测语音段并对与同一说话者相对应的段进行分组,而无需事先了解所涉及的说话者及其任何信息。
[描述来源:Gebru, I. D.; Ba, S.; Li, X.; Horaud, R. (2016). Audio-Visual Speaker Diarization Based on Spatiotemporal Bayesian Fusion. arXiv:1603.09725.]
在语音身份分离中,最常用的方法之一是使用高斯混合模型来模拟每个发言人,并在隐马尔可夫模型的帮助下为每个发言人分配相应的frame。
聚类场景则有两种主要类型。 第一个是迄今为止最受欢迎的,被称为Bottom-Up。 该算法开始在一系列簇中分割完整的音频内容,并逐步尝试合并冗余簇,以便达到每个簇对应于真实说话者的情况。 第二个聚类策略称为自顶向下,并以所有音频数据的单个聚类开始,并尝试迭代分割它,直到达到等于发言人数量的多个聚类。
[描述来源:维基百科 URL:https://en.wikipedia.org/wiki/Speaker_diarisation]
发展历史
2010年,Garau等人比较了两种视听同步方法,基于共同信息(mutual information,MI)和典型相关分析(CCA),并使用MFCC(Mel frequency cepstral coefficients )听觉特征结合从面部特征轨迹计算的运动幅度。他们得出结论,MI表现略好于CCA,垂直面部位移(唇和下巴运动)是与语音产生最相关的视觉特征。
2012年,Noulas等人也使用了将从面部区域提取的灰度像素值变化与声音信息相结合的MI。这样提取的视听特征被插入到动态贝叶斯网络(DBN)中,进行发言人分类。该方法在涉及多达四个参与者的视频会议上进行测试,这些参与者的面部由面对他们的几个摄像机记录。
2014年El Khoury等人和2017年Kapsouras等人发表的文章都建议独立地聚类音频特征和面部特征,然后基于语音和面部片段之间的时间对齐来关联这些特征。
但如前文提到的,在非正式场景中,例如特别的社交事件,音频信号仅能由远程麦克风提供,因此信号会严重被环境噪声和混响破坏。此外,人们经常四处闲逛,将头转离相机,可能被其他人遮挡,突然出现或从相机的视野中消失等等。针对以上问题,Israel D. Gebru, Silèye Ba, Xiaofei Li, Radu Horaud于2016年提出了一种新颖的时空分类模型,该模型非常适合于由多个参与者组成的挑战性场景。他们建议将多人视觉跟踪与多个语音源本地化相结合,以解决语音与人际关联问题。其从麦克风对中提取声学光谱特征,使用一种新颖的监督视听对其技术将这些特征映射到图像平面上,使得音频和视觉模态是在同一数学空间中,半监督聚类方法将声学特征分配给可见人。这种方法相对于以前的工作的主要优点是双重的:它以原则方式处理由多个人同时发出的语音信号,并且它能够实现音频和视觉特征之间的空间重合。
主要事件
年份 | 事件 | 相关论文/Reference |
2010 | Garau等人比较了两种视听同步方法,基于共同信息(mutual information,MI)和典型相关分析(CCA) | Garau, G.; Dielmann, A. and Bourlard, H. (2010). Audio-visual synchronisation for speaker diarisation. INTERSPEECH. pp. 2654–2657 |
2012 | Noulas等人也使用了将从面部区域提取的灰度像素值变化与声音信息相结合的MI | Noulas, A.; Englebienne, G. and Krose, B. J. A. (2012). Multimodal speaker diarization. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34(1): 79–93. |
2014-2017 | El Khoury等人和2017年Kapsouras等人发表的文章都建议独立地聚类音频特征和面部特征,然后基于语音和面部片段之间的时间对齐来关联这些特征 | El Khoury, E.; Senac, C.; and Joly, P. (2014). Audiovisual diarization of people ´ in video content. Multimedia tools and applications. 68(3): 747–775.//Kapsouras, I.; Tefas, A.; Nikolaidis, N.; Peeters, G.; Benaroya, L. and Pitas, I. (2016). Multimodal speaker clustering in full length movies. Multimedia Tools and Applications. |
2016 | D. Gebru, Silèye Ba, Xiaofei Li, Radu Horaud提出了一种新颖的时空分类模型,该模型非常适合于由多个参与者组成的挑战性场景 | Gebru, I. D.; Ba, S.; Li, X.; Horaud, R. (2016). Audio-Visual Speaker Diarization Based on Spatiotemporal Bayesian Fusion. arXiv:1603.09725. |
发展分析
瓶颈
目前在语音身份分离领域的研究数据还不够丰富,并且一些相关软件不是开源的,这两者不仅导致研究上的困难,还有算法性能之间的比较的困难。另外研究的场景大部分不超过十个参与人,复杂度也还不够。
未来发展方向
对目前算法的表现进行比较;使用更丰富的视觉特征,例如头部姿势估计和头部姿势跟踪,和更丰富的音频特征;以及更复杂的应用场景。
Contributor: Yuanyuan Li