自然语言处理领域的进展(三)口语对话系统和聊天机器人

本文译自:Julia Hirschberg, Christopher D. Manning. Advances in Natural Language Processing. Science Magazine 2015. vol. 349 no. 6245 (261-266). 译者:朱庆福(哈工大SCIR博士生)。


从上世纪80年代起,对话一直是自然语言处理研究领域的一个热门话题。早期的基于文本的对话系统如今也已延伸至口语,在移动设备上(如苹果的Siri,Amtrak的Julie,谷歌的Now以及微软Cortana)作为信息入口和任务型应用。口语对话系统(SDS)使得机器人可以帮助人们完成简单的人工任务[如Manuela Veloso的CoBots16]或为患者提供治疗[如Maja Mataric的社会辅助机器人17]。同时它们还使得机器人可以在采访,谈判策略或医疗保健方案的选择中提供指导。

 

对话系统的创建,无论是人人对话系统还是人机对话系统,都需要自动语音识别(ASR)工具以确认人们对话的内容;需要对话管理(DM)来确认人们的需求;需要执行动作来获取信息或完成所要求的活动;需要文本-语音(TTS)合成器将信息转换成人类口语形式(图3)。此外,SDS还需能够在语音识别出错的条件下和人交互;判断出哪些词可能被错误地识别;自动或通过与用户对话,推测出用户所说的真实内容。在口语-口语翻译系统中,还需要一些机器翻译组件来帮助不同语言的对话者与系统交互,识别出潜在的错误翻译并和对话者进行确认。

图3 口语对话系统。三个主要模块分别由三个矩形表示,箭头表示信息流。

SDS能够投入到实际应用中,得益于使用深度学习模型替代传统声学特征管道模型将声音信号映射成人类语言的声音和词语序列所带来的语音识别准确率的突破20。虽然目前SDS在交互话题预先已知和人们常用词语预先确定的限定域上表现较好,但是在用户对话无限制的开放域交互上,系统还不是非常的成功。使用传统方法的ELIZA21系统通过巧妙地复述用户的输入来解决开放域交互问题;这一方法也被用在口语聊天系统中为老人或智力衰退者提供陪伴22。在口语对话中,从各种信息中推断出的说话者的心理状态还可以用来补充系统关于用户陈述内容的知识。

       

SDS的构建过程中存在着许多挑战,主要是提升ASR,DM和TTS基础模块的精确性并将它们拓展至限定更少的领域当中。这些内容包含了识别和生成人类正常对话行为的一些基本的问题,如话轮转换与协调。人类可以通过巧妙地解读说话人声音面部表情和肢体语言等线索判断出该说话人是准备结束当前话轮还是仅仅只是停顿。这些线索,比如停顿(如“um”或“uh”),也被用来建模何时需要听话人的反馈,以推测出听话人是在听还是在发出请求或是提供“澄清”(如当前对话状态的信息)。有时,一些潜在非人为因素也会造成SDS的负担,比如用户接收系统回复的时间延迟。为此研究者们探索了ASR,MT和TTS模块的改进方法使得系统能够在用户说话的过程中即开始识别,翻译和生成,以便于快速回复。人类还能依靠不同的说话方式对词语进行消歧,如“yeah”和“okay”可能有包括同意,话题转移或是否定的不同含义。在一个顺利融洽的对话过程中,人们往往还会趋向于谈话的对象,在发音,词语的选择,声音和韵律的特征,面部表情和肢体语言上彼此变得更加相似。这种倾向性一直被用来巧妙地引导SDS用户使用系统更易识别的词语。目前,研究者们开始认为系统(尤其是代理)应该在这些不同的方面上去模拟它们的用户,一些试验结果显示用户更加偏爱这样的系统23,认为它们更加智能。DM一直是一个开放问题,研究在现有试验数据可能存在稀疏性问题,数据中对话状态观测不完全或无法观测的情况下如何合理地构建对话流程。目前使用最为广泛的方法是POMDP(部分可观测马尔科夫决策过程),该方法试图依靠获取可能的SDS状态上的概率分布来确定一个最优的系统策略,并在系统观测到额外的聊天行为时更新这个分布。该方法可以利用系统动作标识,比如用户输入是代表一个问题,还是陈述抑或是表示同意。

REFERENCES AND NOTES

16. S. Rosenthal, J. Biswas, M. Veloso, “An effective personal mobile robot agent through symbiotic human-robot interaction,” in Proceedings of the 9th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2010), Toronto, Canada, 10 to 14 May 2010 (International Foundation for Autonomous Agents and Multiagent Systems, Richland, SC, 2010), pp. 915–922.

17. J. Fasola, M. J. Matarić, J. Human-Robot Interact. 2, 3–32 (2013).

18. M. Core, H. C. Lane, D. Traum, “Intelligent tutoring support for learners interacting with virtual humans,” in Design Recommendations for Intelligent Tutoring Systems (U.S. Army Research Laboratory, Orlando, FL, 2014), vol. 2, pp. 249–257.

19. D. DeVault, R. Artstein, G. Benn, T. Dey, E. Fast, A. Gainer, K. Georgila, J. Gratch, A. Hartholt, M. Lhommet, G. Lucas, S. Marsella, F. Morbini, A. Nazarian, S. Scherer, G. Stratou, A. Suri, D. Traum, R. Wood, Y. Xu, A. Rizzo, L.-P. Morency, “SimSensei Kiosk: A virtual human interviewer for healthcare decision support,” in Proceedings of the 13th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2014), Paris, France, 5 to 9 May 2014 (International Foundation for Autonomous Agents and Multiagent Systems, Richland, SC, 2014), pp. 1061–1068; http:// aamas2014.lip6.fr/proceedings/aamas/p1061.pdf.

20. G. Hinton et al., IEEE Signal Process. Mag. 29, 82–97 (2012).

21. J. Weizenbaum, Commun. ACM 9, 36–45 (1966).

22. Y. Nonaka, Y. Sakai, K. Yasuda, Y. Nakano, “Towards assessing the communication responsiveness of people with dementia,” in 12th International Conference on Intelligent Virtual Agents (IVA'12) (Springer, Berlin, 2012), pp. 496–498.

23. C. Nass, Y. Moon, B. J. Fogg, B. Reeves, D. C. Dryer, Int. J. Hum. Comput. Stud. 43, 223–239 (1995). 


本文来源于哈工大SCIR

原文链接点击即可跳转

入门理论NLP对话系统口语对话系统语音识别
哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检所研究中心

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

返回顶部