哈工大SCIR博士生侯宇泰作者

最新任务型对话数据集大全

本文主要介绍由我研究中心博士生侯宇泰收集整理的一个任务型对话数据集大全。

合适的数据集或者语料是优秀的自然语言研究工作的基础,然而找寻合适的数据集通常是一件耗时耗力的工作。这时候一份优质的数据集汇总就能帮助科研人员,在研究开始的时候事半功倍。这篇文章就向你介绍一份优质的数据集汇总,帮助你的研究工作轻松选择一片合适的用武之地。

本文主要介绍由我研究中心博士生侯宇泰收集整理的一个任务型对话数据集大全。

图1. 数据集汇总项目

这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。

数据集的地址如下:

https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey

一.背景介绍:什么是任务型对话 

我们收集的数据集主要针对任务型对话研究(Task-oriented Dialogue)。

任务型对话系统指在特定的情境下帮助用户完成特定任务的对话服务系统,例如帮助用户订餐、订酒店的对话系统。近年来,随着亚马逊Alex,微软小娜,苹果Siri等个人语音助理业务的兴起,基于对话的人机交互方式得到了广泛的关注,相关的研究也越来越多,俨然成为一个富有潜力的研究方向。

图2. 语音助手

目前任务型对话的研究可以大体分为两类:基于流程的任务型对话(Pipeline)以及端到端的任务型对话(End-to-End)。

基于流程的任务型对话是相对较为传统的方法。这种任务型对话的系统通过一套Pipeline流程实现。如图3所示, 任务型对话系统的流程依次包括:自然语言理解、对话状态跟踪、对话策略学习,自然语言生成模块。具体的,用户输入自然语言,对话系统按流程依次完成:分析用户意图,更新对话状态,根据对话策略做出动作,生成最终的自然语言回复。

图3. Pipeline任务型对话

然而,Pipeline流程式的对话系统存在错误级联和标注开销大的问题,为此最近有一部分研究尝试通过直接进行端到端的任务型对话学习来规避这些问题。端到端式对话系统根据用户输入句子直接给出自然语言回复。

二.为什么要做数据集汇总?

任务型对话任务并不是新课题,但是针对任务型对话的广泛研究在最近几年才兴起。任务型对话研究的方兴未艾反映在数据和语料上,就是目前现有的任务型对话数据集数量少,且其他成熟的任务已有的数据集在数据量上要少的多。 在这种情况下,尽可能多找到并有效的利用已有的数据资源就成为开展研究的关键之一。然而,搜罗并全面的寻找合适的数据集是一个费时费力的工作,所以整理统计目前已有的任务型对话领域的数据集的信息是有必要的,可以极大地为相关研究工作提供便利,让研究工作得以地快速开始。

除了数据本身的信息有价值之外,在重要数据集上的实验结果提升过程,可以很大程度上反映自然语言研究的前进脉络。所以,简单的数据集信息罗列并不能让我们满意,我们还计划提供一些常用数据上的实验结果和对应论文的信息。从而帮助研究人员了解和把握任务型对话领域研究的推进脉络。我们选择以Leaderboard的形式呈现数据集上的部分实验结果。

三.数据汇总的内容介绍

1.数据集信息

针对每个数据集,我们统计并总结了如下几个方面的内容。

表1. 数据集内容及说明

内容说明
Name数据集名称
Introduction数据集简介
Link (Download & Paper)数据下载链接和对应论文的链接
Multi or single turn对话数据是多轮还是单轮
Task对话数据是否为任务型对话
Task detail对话数据取自什么应用情景,如订餐,导航等
Whether Public Accessible是否可以免费下载
Size & Stats数据量、标注量统计
Included Label数据包括的标注类型
Missing Label数据缺失的标注类型

类似其他常见数据集汇总工作,我们为每个数据集提供了名称,下载链接,简介,数据量等信息。除了这些基本信息,我们还涵盖了一些任务型对话数据的特有的研究内容,例如:

  • Multi or single turn:对话数据是多轮还是单轮是任务型对话数据的重要属性,单轮对话数据往往用于自然语言理解任务,多轮对话数据往往用于端到端任务、对话策略学习、对话状态跟踪。

  • Task detail:数据适用于什么应用情景也是一个独特的关键信息,通过这个信息,研究者可以快速理解数据,开展Multi-domain 或Domain-transfer研究。

2. 实验结果Leaderboard

对于一些研究常用数据,我们提供了上面的一些State-of-the-art实验结果,并以Leaderboard的形式呈现,具体包括内容如下:

表2. Leaderboard内容及说明

内容说明
Model模型的名称
Score主要实验结果,F1分数,准确率
Paper/Source模型对应论文的名称和链接

其中我们的模型名称采用出处论文中的表述,分数的评价指标以具体的任务而定。实验结果列表配合上论文链接,可以让读者快速地了解一个任务。

此项信息内容仍在完善中。

四.数据集汇总内容样例

1. 数据集介绍样例

数据集的汇总目前以表格的形式,收录了17个数据的细节信息。读者可以在github项目中Excel文件或者Readme中直接查看。数据的格式如图4所示。

图4. 数据细节样例

2. Leaderboard 样例

我们以Leaderboard 的形式展示了语义槽抽取(Slot filling),用户意图识别(Intent detection),对话状态跟踪(Dialogue state tracking)三个任务上的一些领先结果。具体形式如图5所示。

图5. Leaderboard的样例

五.关于内容补充的邀请

我们欢迎各种形式的内容完善,包括但不限于:

  • 直接提交Pull Request

  • 向我们发送新数据

  • 向我们发送新的实验结果(已发表论文)

六.其他

数据集汇总地址如下:

https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

入门对话系统数据集语音交互任务型对话语音助理人机交互
5
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

语音助理技术

虚拟助理(virtual assistant)是一种能替个人执行任务或服务的软件代理(software agent)。有时候“聊天机器人”泛指虚拟助理,亦或专指网络聊天使用的软件机器人(有时候更专指娱乐而非实用的网络聊天)。但也可以指一种职业,或者企业组织,其乃是透过网络执行远端服务。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~