语音分割 | 机器之心

简介

语音分割是识别自然语言中的单词，音节或音素之间的边界的过程。该术语既适用于人类的心理过程，也适用于自然语言处理的人工过程。

语音分割是一般语音感知的一个子领域，也是语音识别技术领域的一个重要子问题。正如大多数自然语言处理问题一样，进行语音分割必须考虑语境，语法和语义，即使如此，我们得到的结果往往只是概率分割而不是绝对的分类。

语音分割在一定程度上与文本分割中的一些问题重叠，因为在一些语言中，书写字符之间没有空格存在，如中文和日语，而其他语音中的字符间的天然分割（如空格）直接指明了分割的位置。然而，即使对于这些在字符间有天然分割的语言，文本分割通常也比语音分割更容易，因为书面语言通常在相邻词语之间几乎没有干扰，并且通常包含语音中不存在的额外线索（例如日语在词干中使用汉字）。对于日语和中文等单词之间没有空格的这类语言的语言词语边界识别可以通过NLU方法克服，例如Patom理论与RRG方法相结合。

[描述来源：维基百科 URL：https://en.wikipedia.org/wiki/Speech_segmentation]

基于大脑的Patom理论与典型的AI系统不同，因此它有相对更多的限制条件。和允许指导分析的通用算法不同，Patom理论只允许模式的集合和列表作为其数据结构，并且这些模式仅在层次结构中存储、匹配和使用。虽然现代数字计算机不适合并行处理，但Patom模型非常适合使用简单硬件进行并行匹配。因此，Patom理论可以对元素进行匹配。RRG方法则是指Van Valin提出的Role and Reference Grammar，可以用来辨析、挖掘语义，并且结合了语法和语义。可以对在语义层级上的结果进行进一步优化。

[描述来源：Ball, J. S. (2017). Using NLU in Context for Question Answering: Improving on Facebook's bAbI Tasks. arXiv:1709.04558.]

发展历史

语音分割的一个难点在于在说话时，发言人一般不会在相邻单词之间进行停顿。早期常用的分割线索被分为统计信息和语音线索（ speech cues）。婴儿和语言学习者往往是研究者的研究对象。Elizabeth K. Johnson和Peter W. Jusczyk在2001年的研究即是如此，此前的研究已经证明了8个月大的孩子可以根据输入信息的结构等统计信息单独分割连续的语音流，他们设计了实验使得试验中给出的语音线索与统计信息相悖，结果相比于统计线索，婴儿更依赖于语音线索。Heather Bortfeld和Karen Rathbun等人的研究也从婴儿学习语音分割的角度出发，他们发现婴儿可以利用非常熟悉的单词（包括但不限于自己的名字）来区分和识别流利语音中相邻的、以前不熟悉的单词。他们对某些特定词的熟悉程度——例如他们自己的和其他人的名字——可以为分割语音流提供切入口。

目前比较新的研究有2016年Herman Kamper，Aren Jansen和Sharon Goldwater提出的无监督贝叶斯模型，能将未标记的语音进行分割然后聚类成虚拟词组。该模型的错误率大约20％，比此前基于HMM的系统高出约10％，而且模型不需要预先指定词汇大小。

主要事件

年份	事件	相关论文/Reference
2001	Elizabeth K. Johnson和Peter W. Jusczyk证明了相比于统计线索，婴儿更依赖于语音线索	Johnson, E. K.; Jusczyk, P. W. (2001).Word Segmentation by 8-Month-Olds: When Speech Cues Count More Than Statistics.Journal of Memory and Language. 44(4):548-567.
2005	Heather Bortfeld和Karen Rathbun等人发现婴儿可以利用非常熟悉的单词（包括但不限于自己的名字）来区分和识别流利语音中相邻的、以前不熟悉的单词	Bortfeld, H.; Morgan, J. L.; Golinkoff, R. M.; Rathbun, K. (2005).Mommy and Me: Familiar Names Help Launch Babies Into Speech-Stream Segmentation.Psychological Science. 16(4): 298 - 304.
2016	Herman Kamper，Aren Jansen和Sharon Goldwater提出无监督贝叶斯模型，能将未标记的语音进行分割然后聚类成虚拟词组	Kamper，H.; Jansen, A.; Goldwater, S. (2016).Unsupervised word segmentation and lexicon discovery using acoustic word embeddings.IEEE/ACM Transactions on Audio, Speech and Language Processing. 24(4):669-679.

发展分析

瓶颈

语音分割像目前大部分语音识别技术一样，面对着大多数的海量数据都没有标签或标注不善，而准确地标注它们成本不菲的问题。另外，目前的模型在不同的任务上表现仍然差别很大，即模型的可移植性和泛化能力有待提高。最后，声学环境和说话人的语音语调对模型的稳健性造成了挑战（当然这对文本分割不是问题）。

Contributor：Yuanyuan Li

未来发展方向

目前的研究主要致力于开发无/弱监督算法，避免获取标记数据的昂贵成本，以及更稳健的模型。

简介