Yuanchao Li作者Joni Chung, Panda编辑

对话系统的前世今生

背景

人工智能(AI)研究近些年来进展颇丰。机器人越来越聪明,甚至还有了新名字——“超级智能”。对我们人类来说,我们该如何与这些新朋友交流呢?答案是对话系统。

图 1:对话系统是 2017 年十大战略性技术趋势之一(https://letstalkpayments.com/conversational-systems-will-enable-businesses-of-the-future-to-be-invisibly-present-through-time-and-space/

对话系统的历史

图 2:对话系统发展史 [1]

图 2 展示了对话系统的发展史。LUNAR、SHRDLU、ELIZA 等一些早期的自然语言对话系统可以通过句法分析和语义分析“理解”说话人的话语。

LUNAR [2] 是一个原型设计的自然语言问答系统,可帮助月球地质学家获取对月球岩石和土壤成分的化学分析数据。其采用了使用启发式/语义信息的句法分析来选择最有可能的解析方式(使用了扩充转移网络语法(Augmented Transition Network Grammar))。

SHRDLU [3] 是一款早期的自然语言理解计算机程序,由 MIT 的 Terry Winograd 在 1968–1970 年开发。其用户可以与计算机进行对话,从而在一个简化的“积木世界”中移动目标、命名集合以及查询状态。这个“积木世界”本质上是一个充满了不同积木的虚拟盒子。其开发的基础是:研究者相信“计算机只有在理解了其所讨论的主题之后才能处理语言”。

然后,故事理解和生成系统出现了。这些系统可以根据人类话语推断动作、动作执行者和对象。这些系统有几种不同类型:基于脚本的理解、基于规划的理解、动态记忆和故事讲述。下面给出了这些类型的一些典型对话系统。

  • 基于脚本的理解:SAM(Script Applier Mechanism)[4]、FRUPM [5]
  • 动态记忆:IPP [6]、BORIS [7]、CYRUS [8]
  • 故事讲述:TALE-SPIN [9]

然后进入了 1980 年代,早期的语音对话系统开始冒头了。“Hearsay-II 语音理解系统”根据知识源整合了不同层面的信息处理,这些信息来源是根据黑板模型(blackboard model,图 3)协调的,其中涉及:参数、分段、音节、词、词序列、短语和数据库接口。其结合了自上而下(假设驱动的)和自下而上(数据驱动的)的处理方法。

图 3:黑板模型 [10]之后,研究者设计出了越来越复杂的对话系统,并且取得了很大的成功,将早期的语音对话系统改进成了有身体的对话智能体/智能虚拟人(图 4)。

图 4:具身式对话智能体 REA(Real-Estate Agent/房地产经纪人)[11]。

但研究者不会就此止步:他们还试图让系统能理解情绪。情感计算(affective computing)是设计情绪智能的一个原理,可根据同伴的情感状态改变行为。

到了 2000 年代,对话系统已经具备了各种必需的基本功能,支持交互式往复对话(不只是回答问题,而且还能提问题),能识别交互和延迟的成本,能有效地管理中断,还能获取交互中社交和情绪方面的信息。这些之前的出色研究工作非常有价值,并且构建了当前的对话系统。

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
产业智能音箱语音识别对话系统
相关数据
维克托·R·雷瑟人物

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域,涉及计算机科学、心理学和认知科学(cognitive science)。在计算机领域,1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态,并且适应它们的行为,对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

IBM 沃森技术

沃森是能够使用自然语言来回答问题的人工智能系统,由IBM公司的首席研究员David Ferrucci所领导的DeepQA计划小组开发并以该公司创始人托马斯·J·沃森的名字命名。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

暂无评论
暂无评论~