Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

资源:10份机器阅读理解数据集

Teaching Machines to Read and ComprehendPaperWeekly 推荐

#数据集

经典的机器阅读理解数据集 CNN/Daily Mail。

论文链接:http://www.paperweekly.site/papers/490


The LAMBADA dataset: Word prediction requiring a broad discourse context

PaperWeekly 推荐

#数据集


大型数据集是深度学习技术发展的重要基础,数据集的质量和难度也直接关系着模型的质量和实用性。机器阅读理解的数据集有很多,包括中文和英文的数据集,每一个的构建都会带来模型的创新,随着难度不断增加,对模型也提出了更高的要求。本文在构建数据集过程中为了保证任务的难度所采取的方法是值得借鉴的。


论文链接:http://www.paperweekly.site/papers/488


The Goldilocks Principle: Reading Children's Books with Explicit Memory Representations

PaperWeekly 推荐

#数据集


经典的机器阅读理解数据集 Children’s Book Test (CBT)。


论文链接:http://www.paperweekly.site/papers/489



SQuAD: 100,000+ Questions for Machine Comprehension of Text

PaperWeekly 推荐

#数据集


非常有名的机器阅读理解数据集,并且举办了一个相关的比赛。


论文链接:http://www.paperweekly.site/papers/408




RACE: Large-scale ReAding Comprehension Dataset From Examinations

PaperWeekly 推荐

#数据集


Machine Reading Comprehension 这个领域非常活跃,尤其是经常分享出大规模的数据集。本文开放出的数据集为中国中学生英语阅读理解题目,给定一篇文章和 5 道 4 选 1 的题目,包括了 28000+ passages 和 100,000 问题。


论文链接:http://www.paperweekly.site/papers/361


Frames: A Corpus for Adding Memory to Goal-Oriented Dialogue SystemsPaperWeekly 推荐

#数据集


Maluuba 放出的对话数据集。


论文链接:http://www.paperweekly.site/papers/407


Quasar: Datasets for Question Answering by Search and Reading

PaperWeekly 推荐

#数据集


分享一个 QA 大型数据集,数据来自 Stack Overflow。


论文链接:http://www.paperweekly.site/papers/354


NewsQA: A Machine Comprehension Dataset

PaperWeekly 推荐

#数据集


这篇文章来自于 Maluuba Research,介绍了一个新的数据集 NewsQA 用于机器阅读理解 (Machine Reading Comprehension),NewQA 提供了超过 10 万经过人工标注得到的问题-答案 (question-answer) 对。 这些问题和答案来自于美国 CNN 的 10,000 多篇新闻文章,答案还包括了相应文章以及文字段落。数据集的收集包含了 4 个阶段,旨在得到那些经过推理 (reasoning) 才能回答的问题。 


文中的分析也支持了 NewsQA 的问题回答超出了简单的语言匹配和文本识别。 最后文章测量了人类在这个数据集上的表现,并将其与几个神经模型进行了比较,机器与人类之间的差距 (0.198 in F1 score) 表明现有模型仍有很大的进步空间。

 

Machine Reading Comprehension 最近两年在 NLP 领域得到了大量关注,这篇文章在 Related work 部分详细介绍了目前主流的几个数据集以及它们的优缺点,比如 MCTest, CNN/Daily Mail, Children’s Book Test, SQuAD。值得一提的是,相比较于由 Stanford NLP Group 整理的 SQuAD,NewsQA 包含了更多的文章和问题,而且需要复杂推理的问题也比 SQuAD 更多 (33.9% v.s 20.5%)。


论文链接:http://www.paperweekly.site/papers/359



MS MARCO: A Human Generated MAchine Reading COmprehension Dataset

PaperWeekly 推荐

#数据集


微软放出的机器阅读理解数据集。


论文链接:http://www.paperweekly.site/papers/406



Quasar: Datasets for Question Answering by Search and Reading

PaperWeekly 推荐

#数据集


本文提出阅读理解领域的一个新的数据集,称为 triviaQA, 文章从 14 个问答网站收集问答对,然后根据问答对,将 bing 的搜索结果和维基百科的相关页融合出文章, 从而形成文章-问题-答案的数据样本。 


数据集包括 650k 的 document-query-answer 对,95k 的问答对,在规模上超出了之前阅读理解的主流数据集。在对数据集进行采样分析得出,数据集中约 69% 的问题与文章具有不同的句法结构,41% 具有多义词或者短语,40% 的答案需要多句联合推断才能得出答案,答案并不完全是文章中的子文本串,在这个数据集的基础上,作者实现了三个模型,随机实体模型,实体分类器,和 BiDAF 网络(其中 BiDAF 网络在 Squad 数据集中取得较好的成绩,当前排第六名,EM 分与人类相比差 9 个点),在 triviaQA 上分别取得了约 15%,20%,40% 的效果,远低于人类的表现 80%,这个巨大的鸿沟也意味着数据集对领域有着较大的推动作用。 

本文还对模型的表现进行分析, 可以看出, 在长文本, 文本信息冗余, 联合推断等情况下, 当前模型的表现都还不够好。 这也意味着在阅读理解领域, 还有很多工作有待探索。


论文链接:http://www.paperweekly.site/papers/293

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论机器阅读理解数据集工程论文
1
暂无评论
暂无评论~