言语知觉 | 机器之心

简介

言语知觉是听到，解释和理解语言声音的过程。言语知觉研究与语言学和认知心理学中的语音学，以及心理学中的感知密切相关。言语知觉研究旨在了解人类听众如何识别语音并使用这些信息来理解口语。言语知觉研究可用于构建能够识别语音，改善听力和语言障碍听众的语音识别以及外语教学的计算机系统。

在这一领域中主要的研究课题有：

婴儿言语感知：婴儿通过能够检测语音之间的非常小的差异来开始语言获取的过程。他们可以区分所有可能的语音对比（音素）。渐渐地，当他们接触他们的母语时，他们的感知变得特定于语言，即他们学会如何忽略语言的音素类别之间的差异（这些差异可能与其他语言形成对比 - 例如，英语区分两种语音爆破类别，而泰国有三类;婴儿必须了解哪些差异在其母语用途上是独特的，哪些不是。当婴儿学习如何将传入的语音分类为类别，忽略无关的差异并加强对比差异时，他们的感知就开始向其母语倾斜。因此，研究婴儿的言语感知过程也是研究人类的言语感知的方法。

跨语言和第二语言的学习：大量研究已经研究了语言的使用者如何感知外语（称为跨语言语音感知）或第二语言语音（第二语言语音感知）。后者属于第二语言习得领域。

语言或听力障碍：研究语言或听力障碍患者如何感知言语不仅仅是为了发现可能的治疗方法。它可以提供对非受损言语感知的原则的洞察，以以下两个子研究领域为例：

失语症的听众：失语症影响语言的表达和接受。两种最常见的类型，即表达性失语症和接受性失语症，在一定程度上影响语言感知。表达性失语症会导致语言理解困难。接受性失语症对理解的影响要严重得多，他们通常无法完全区分发音和发声的位置。
听众用人工耳蜗植入：人工耳蜗植入恢复了患有感觉神经性听力损失的个体的声学信号。植入物传达的声学信息通常足以使植入物使用者即使没有视觉线索也能正确识别他们认识的人的言语。在多年的研究中，已经证明许多因素会影响感知表现，特别是：植入前耳聋的持续时间，耳聋发病年龄，植入年龄（这种年龄影响可能与临界期假设有关）和使用植入物的持续时间。先天性和后天性耳聋患儿存在差异。

因此，对言语知觉的研究是既有研究价值，又具有实际意义的。

[描述来源：维基百科 URL：https://en.wikipedia.org/wiki/Speech_perception]

发展历史

婴儿学会在大约6个月大的时候将他们母语的不同元音音素对比起来，此前有研究证明了8个月大的孩子可以根据输入信息的结构等统计信息单独分割连续的语音流。Elizabeth K. Johnson和Peter W. Jusczyk在2001年设计了实验使得试验中给出的语音线索与统计信息相悖，结果相比于统计线索，婴儿更依赖于语音线索。Heather Bortfeld和Karen Rathbun等人的研究也从婴儿学习语音分割的角度出发，他们发现婴儿可以利用非常熟悉的单词（包括但不限于自己的名字）来区分和识别流利语音中相邻的、以前不熟悉的单词。他们对某些特定词的熟悉程度——例如他们自己的和其他人的名字——可以为分割语音流提供切入口。

在第二语言方面，1995年Best提出了一种感知同化模型，该模型描述了可能的跨语言类别同化模式并预测其后果。同年，Flege提出了一种语音学习模型，该模型结合了关于第二语言（L2）语音习得的几个假设，并且证明相对于与L1声音相对类似的L2声音/发音，与本地语言（L1）声音不太相似的L2声音更难以习得。

学习人的言语感知比较直接的用途是用于语音识别，从早期的HMM算法到目前的神经网络，研究者们已经取得了长足的进步。2012年Hinton等人发表的论文首先将神经网络进行了声学建模，推动了神经网络在这一领域的流行。

主要事件

年份	事件	相关论文/Reference
1995	Flege提出了一种语音学习模型，该模型结合了关于第二语言（L2）语音习得的几个假设	Flege, J., (1995). Second language speech learning: Theory, findings and problems. Speech perception and linguistic experience: Theoretical and methodological issues. Baltimore: York Press. pp. 233–277
1995	Best提出了一种感知同化模型，该模型描述了可能的跨语言类别同化模式并预测其后果	Best, C. T. (1995). A direct realist view of cross-language speech perception: New Directions in Research and Theory. Speech perception and linguistic experience: Theoretical and methodological issues. Baltimore: York Press. pp. 171–204.
2001	Elizabeth K. Johnson和Peter W. Jusczyk证明了相比于统计线索，婴儿更依赖于语音线索	Johnson, E. K.; Jusczyk, P. W. (2001). Word Segmentation by 8-Month-Olds: When Speech Cues Count More Than Statistics. Journal of Memory and Language. 44(4): 548-567.
2005	Heather Bortfeld和Karen Rathbun等人发现婴儿可以利用非常熟悉的单词（包括但不限于自己的名字）来区分和识别流利语音中相邻的、以前不熟悉的单词	Bortfeld, H.; Morgan, J. L.; Golinkoff, R. M.; Rathbun, K. (2005). Mommy and Me: Familiar Names Help Launch Babies Into Speech-Stream Segmentation. Psychological Science. 16(4): 298 - 304.
2012	Hinton等人发表的论文首先将神经网络进行了声学建模，推动了神经网络在这一领域的流行	Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., ... & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 29(6), 82-97.

发展分析

瓶颈

目前关于言语感知的研究还很难准确地理解言语中的语义信息和其所处的文化背景，而这恰恰是突破目前语音理解识别的水平，真正理解语音信息的关键。

未来发展方向

如上文所述，对语义信息的进一步理解是下一步研究的重点；正如有些研究在文字理解中加入与维基百科等知识库的关联来帮助理解背景信息，对语音的研究也可以增强对常识/文化信息等的理解。

Contributor: Yuanyuan Li

简介