亚马逊将发布超过 400 万字会话和知识数据集
亚马逊计划提供大量针对自然语言处理研究的数据样本。该公司今日表示,将在 2019 年 9 月发布 Topical Chat 数据集,该数据集是一系列众包的人类对话,供参加年度 Alexa Prize Socialbot Grand Challenge 的团队使用。亚马逊在官方博客中称,Topical Chat 数据集包含超过 210,000 个话语,共超过 4,100,000 个单词,以上数量使其成为目前最大的公共社交对话和知识数据集之一。每个语料库的对话和对话轮次都与提供给众包工作者的语境知识相关联,并且所述知识是从与一系列「非结构化」和「松散结构化」的文本资源中收集而来。(Venturebeat)