青 暮、陈大鑫作者AI科技评论 来源林亦霖校对黄继彦编辑

专访SIGDIAL2020最佳论文一作高信龙一:成功都是一步步走出来的

清华代有人才出。

作为ACL和ISCA所属的关于对话系统的兴趣小组的年度会议,SIGDIAL 2020已经开幕。其中,清华COAI小组拿到了SIGDIAL2020最佳论文。

这篇论文的第一作者是清华大学研二学生高信龙一,论文的题目是《Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical Analysis of System-wise Evaluation》。中文译为《你的目标导向型对话模式表现得很好吗?系统评价的实证分析》。

近年来,目标(任务)导向型对话系统引起许多研究者的关注。一个目标型对话系统可包括多个模块,例如一个传统的流水线模型包括语言理解、状态追踪、对话策略、语言生成四个模块,而各个模块均有大量的新算法和模型被提出。

然而,大部分工作忽视了去评价一个完整的对话系统的性能。这些新算法基本只在相应模块内进行比较验证,而没有评估该算法嵌入一个对话系统中的表现。根据细粒度和具体模型不同,各个模块和模型之间可以有多种拼接方式组成一个对话系统

此外,模块内的评价基本只是在单论对话的设定下进行,而一个完整的对话应当由系统和用户进行多轮交互达成的。故在论文中,作者尝试比较了不同模块、不同细粒度、不同配置下各个目标导向型对话系统,以作系统级的性能评估。搭建完的对话系统通过与模拟用户或真实用户进行多轮对话交互,并使用对话级别的评价指标进行实验。
据清华大学黄民烈教授介绍到,论文的二作是同组的朱祺博士,此外还得到了微软合作者和朱老师的支持。

注:SIGDIAL为学术界和行业研究人员提供定期的论坛,介绍话语和对话领域的前沿研究。该会议由SIGdial组织赞助,该组织属于ACL和ISCA的话语和对话特别兴趣小组。具体来说,SIGDIAL接收正式的、基于语料库的、实现、实验或分析性工作,包括但不限于以下主题:话语处理、对话系统语料库、工具、方法论、语用和/或语义建模、对话与话语处理技术的应用

论文简要介绍

面向目标的智能对话系统通常需要多个回合的对话完成用户要求的复杂任务。

与开放域对话系统不同,面向目标的对话系统可以访问外部数据库,在该数据库上向复杂任务的用户查询信息。

面向目标的对话系统可以分为三类,基于它们的体系结构,如下图所示。
第一类是pipeline(或模块化)系统,通常由四个部分组成:自然语言理解(NLU)、对话状态跟踪(DST)、对话策略(Policy)和自然语言生成(NLG)。

第二类是端到端(或统一)系统,直接从对话历史中生成系统响应。

第三类介于上述两种类型之间,有些系统使用结合了四种对话框组件中的某些(但不是全部)的运动类型模型。(例如,联合词级DST模型结合了NLU和DST,联合词级策略模型结合了对话策略和NLG。)

虽然人们设计了许多方法来评估和改进单个对话组件的性能,但是对于不同组件如何对对话系统的整体性能做出贡献,还缺乏全面的实证研究。

据论文介绍,作者进行了系统的评估,并对不同设置下由不同模块组成的不同类型的对话系统进行了实证分析。

结果表明:
  1. 使用不同组件级别的细粒度监控信号训练的pipeline对话系统通常比使用粗粒度标签训练的联合或端到端模型的系统获得更好的性能。

  2. 单轮、模块内的评估结果并不总是与多轮、系统级的整体性能一致。

  3. 尽管模拟用户和真实用户之间存在差异,但模拟评估仍然是昂贵的人工评估的有效替代,特别是在开发的早期阶段。

实证分析结果

表1中的数据表明,与在联合模型和端到端系统相比,pipeline系统通常可以获得更好的总体性能,因为在组件级别使用细粒度标签可以帮助pipeline系统提高任务成功率。

表1:具有不同配置和模型的系统级仿真评估,这里使用SYSTEM-表示配置的缩写

通过比较表1和表2中的结果表明验证组件评估是否与系统评估一致很重要。

可以观察到有时它们是一致的(例如表2a中的BERT> MILU,而SYSTEM-1> SYSTEM-2),但并非总是一致的(例如表中的TRADE> SUMBT 2b,但SYSTEM-6> SYSTEM-7)。

组件评估与系统评估之间有差异,使用检索模型系统的优越性可能意味着,在面向目标的对话系统中,NLG中较低的SER比较高的BLEU更为关键。
表2:每个模块的组件性能。†表示来自MultiWOZ排行榜的结果。其中,NLG为:自然语言生成模块从对话行为表示生成自然语言响应。E2E为:端到端模型将用户的话语作为输入,直接以自然语言输出系统响应

表3和表4中的结果表明,所有系统的整体性能随任务域的不同而变化,并且随着任务复杂度的增加而显着下降,而pipeline系统对任务复杂性则相对鲁棒。
表3:不同单域的性能。与“吸引力”相比,大多数系统在“餐厅”和“火车”中的性能更高
表4:不同域数下的性能。随着域数的增加,所有系统的性能都会下降

表5显示了5个对话系统的人工评估结果。与表1中的模拟评估相比,可以看到大多数系统的Pearson相关系数都在0.5到0.6之间,这表明模拟评估与人类评估的相关性中等。
表5:对人类用户的系统评估,最后一列展示了模拟评估与人工评估之间的相关系数

表6显示了模拟评估中SYSTEM-1和SYSTEM-6之间的会话比较。
表7表明现有的对话系统容易受到人类语言变化的影响,例如表7中棕色突出显示的句子,这表明在处理真实的人类对话时缺乏稳健性。
需要明确的是,作者在论文中用的评价指标有两个:任务效率:使用对话的次数,平均所有对话会话,来衡量完成一项任务的效率。用户话语和随后的系统话语被视为一个对话回合。系统应帮助每个用户在20轮内完成目标,否则视为失败。

任务成功率:用Inform F1和匹配率衡量,其中informf1评估所有信息请求是否得到满足,匹配率评估所提供的实体是否满足用户目标中指定的所有约束。当且仅当Inform F1和匹配率均为1时,对话框才会标记为成功。

此外,还有一些其他结果:词级DST预测的对话状态只记录当前回合的用户约束,导致动作选择(通过对话策略)的信息丢失,如下图所示。

词级DST与字级策略相结合可以获得更好的整体性能,例如SYSTEM-13的成功率为40.4%,而SYSTEM-6的成功率为27.8%,如下图所示。
所有这些联合方法在传统的pipeline系统中仍然表现不佳,而通过联合训练策略和NLG模块可以改善响应生成:在使用联合模型的所有系统中,SYSTEM-16获得了最高的成功率(48.5%)和第二高的匹配率(59.67%)(SYSTEM-5∼14)。

清华人做科研也是“一步一步”

这篇论文的第一作者高信龙一,原来是清华大学计算机系计55班。在大二的时候,也就是2016年10月份进入智能技术与系统国家重点实验室交互式人工智能(CoAI)课题组,在黄民烈老师的指导下进行科研训练。
主要研究方向为对话系统推荐系统强化学习。目前已在ACL,EMNLP,WWW,AAAI等顶级会议上以第一作者发表数篇长文。

高信同学进大学前专注于数学竞赛,没有丝毫计算机编程方面的基础,在清华读本科期间,一开始也是跟随实验室的冯珺学姐从事一些简单的科研工作,主要做一些baseline的实现和分析。在学姐和老师的辅助下,一点点掌握科学实验和结果分析等独立科研能力

大三的时候,高信龙一由于人工神经网络课程和其他两名本科生一起合作完成了一个项目,在里面又体会到了团队合作时的一些心得,例如如何沟通、如何分配工作和时间。

他的科研经历也并不是一帆风顺,据高信龙一回忆:他为了完成第一个项目,整个暑假都和同学一起泡在实验室里,期间在实验上有过无数的尝试和修正,从一次次失败中分析其中的原因,汲取其中的经验。

2019年,他成为清华大学计算机系硕士生,交互式人工智能组(CoAI)成员,算是正式“拜师”黄民烈教授。

所以,高信龙一算是“土生土长”清华学子,但从过往经历,可以看到,清华学子的科研路也是一步一步走出来的,例如他从大二就动了科研的念头,大三组织团队完成科研任务,再到2019年攻读硕士,以及今天的这篇最佳论文。高信龙一同学的科研路可谓踏踏实实,一步一个脚印。

One more thing:问答高信龙一

1. 这次获得最佳论文,你心情如何?有没有什么研究建议想给大家分享的?

答:挺开心的,很荣幸自己的工作能得到学界的认可,很感谢身边的老师、同学和同事给我的支持。我希望现在人工智能方向的研究者能静下心来研究一些真正有意义、有深度的课题。

2. 获奖的这篇论文思路是什么样的?主要解决了什么问题?

答:随着近年来人工智能新模型和新算法层出不穷,我希望能让学界重新重视一下对话评价的问题,思考一下对话模型的实用性。

本次工作针对各类模型、各类配置、各类设定的多轮任务型对话系统进行全面的系统评测和分析,为对话系统的研究者和开发者提供了一些重要的借鉴。

3. 其他研究者目前主要关注改进的点是哪些方面?

答:可能更加关注于每个模块内的性能提升。例如在任务型对话中,对话状态追踪就是一个比较热门的方向。

4. 为什么要选择对话系统这一领域?

一开始并没有明确的方向,所以先从算法入手,着眼到了强化学习上。后来随着对组里的研究方向有了进一步了解之后,对对话这种人机交互的形式比较有兴趣,同时也有一些场景可以利用到强化学习,所以选择了对话系统这个领域,其中我个人相对专攻任务型对话系统

5. 现在在清华学习过程中有没有一些经验分享?

更多的把精力放到科研上了。平时要注意对文献的阅读积累,带着问题去阅读一些论文。

6. 清华的培养机制,对你来说受益最大的是哪一方面?

可能是多元化的校园生活。只要用心,每个人都能在清华找到适合自己的环境。像是对科研感兴趣的同学,大二的时候就可以借助计算机系里的“学术新星”计划,提前进入实验室接触科研方面的知识。此外,和实验室的教师和同学的学术探讨也给我提供了很大的帮助。

7. 平时有怎么样的兴趣爱好?

听听音乐,看看植物,和家人或好朋友聊聊天,其他基本就是在闭目养神了(笑)。

8. 黄民烈老师说,这篇文章有微软合作者的支持,请问毕业之后是打算去微软么?

原本微软研究院邀请我在今年春季过去参加实习的,但由于全球疫情爆发之后,没能去成西雅图那边,所以现在还没有确定毕业之后的去向。

我们也祝愿高信龙一科研之路一帆风顺~

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业高信龙一SIGDIAL 2020
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

黄民烈人物

黄民烈,清华大学计算机科学与技术系副研究员。人工智能、深度学习、机器学习方法与应用;自然语言处理,自动问答,人机对话系统,情感分析,社交数据挖掘。

推荐文章
暂无评论
暂无评论~