Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

开放的一天,吴恩达、谷歌、Facebook纷纷开源数据集

从计算机视觉到自然语言处理,这几天很多研究者都提出了新的数据集以期解决新的问题。吴恩达几个小时前开源的「胸片」数据集希望借助 CV 辅助疾病诊断;Facebook 几天前开源的「BISON」希望借助 CV 与 NLP 学习文字与图像的内在联系;而几个小时前谷歌更是开源了大型「自然问答」数据集,他们希望借助 NLP 学习人们谷歌问题并搜索答案的过程。

在这篇文章中,我们将介绍这几天开源的三种数据集,它们与已有的通用数据集都不太一样,且更关注精细化的任务。例如在谷歌开源的 QA 数据集中,它里面都是真实的搜索问题,答案也都是从维基百科查找的。这种大型的真实数据集更适合训练一个不那么「低智商」的 QA 对话系统,也更符合成年人实际会问的一些问题。

其它如吴恩达等研究者开放的胸部影像数据集和 Facebook 开源的新型图像描述数据集都很有特点,也许以后年年体检的「胸片」就能使用 DL 辅助诊断了,也许文本内容和图像内容以后就能相互转换了。

谷歌提出自然问答数据集 Natural Questions(NQ)

开放性的问答任务一直是衡量自然语言理解的好标准,QA 系统一般能阅读网页并返回正确的答案。然而目前并没有比较大的自然问答数据集,因为高质量的自然问答数据集需要大量实际问题以及寻找正确答案的人力成本。为了解决这一问题,谷歌近日开放了一个大规模数据集 Natural Questions(NQ),它可以用来训练并评估开放性问答系统,并且再现了人类寻找问题答案的端到端过程。

NQ 数据集非常大,包含 30 万条自然发生的问题,以及对应的回答标注,其中每一条回答都是由人工从维基百科页面找到的。此外,这个自然问答数据集还包括 1.6 万个特殊样本,其中每一个样本的答案都由 5 个不同的标注者标注,因此这种多样性的回答更适合评估 QA 系统的效果。

因为回答 NQ 中的自然性问题比回答「小问题」有更高的要求,模型需要对提问有更深的理解,因此这样的模型会更复杂,也会更贴近真实问答场景。所以谷歌在发布这个数据集的同时,还提出了一项挑战赛,它希望挑战赛能激励研究者基于这个数据集做出更好的问答系统——更能理解自然语言的问答系统

NQ 数据集的论文中展示了标注的过程与结果。简而言之,谷歌的标注过程可以分为以下几个步骤:向标注者呈现问题和维基百科页面;标注者返回一个长回答与短回答。其中长回答(I)可以为维基百科页面上的 HTML 边界框,一般可以是一段话或一张表,它包含回答这些问题的答案。当然,如果没有合适的答案或者答案太分散,标注者也可以返回 I=NULL。短回答(s)可以是 I 中的一个或一组实体,它们可回答问题。如下展示了数据集的样本示例:

图 1:数据集中的样本标注。

论文:Natural Questions: a Benchmark for Question Answering Research

论文地址:https://storage.googleapis.com/pub-tools-public-publication-data/pdf/b8c26e4347adc3453c15d96a09e6f7f102293f71.pdf

摘要:我们提出了 Natural Questions(NQ)语料库,它是一种新型问答数据集。问题都是提交到谷歌搜索引擎的匿名搜索请求。标注者会收到一条问题以及对应的维基百科页面,该维基百科页面通过问题的谷歌搜索结果(Top 5)确定。标注者会标注一个长回答(通常是段落)和一个短回答,其中如果页面有明确答案,短回答是单个或多个实体,如果没有答案,短回答和长回答标注为 NULL。

目前数据集包含 307373 对训练样本,它们有单个标注;7830 对开发或验证样本,它们有 5 种标注;还有 7842 对测试样本,它们也有 5 种标注。我们还提出了验证数据质量的实验,并分析了 302 个样本的 25 种标注,从而充分了解标注任务中的人工差异。为了评估问答系统,我们提出了鲁棒性的度量方法,并表示这些指标有非常高的人类上边界;我们同样使用相关文献中的竞争性方法建立了基线结果。

吴恩达提出胸部放射影像数据集 CheXpert

胸部放射影像是全球最常见的影像检查,对很多威胁终身的疾病的筛查、诊断和治疗至关重要。在本文中,作者介绍了一种用于解释胸部放射影像的大型数据集——CheXpert (Chest eXpert)。该数据集包含来自 65,240 个病人的 224,316 张胸部放射影像,这些影像中标注了 14 种常见的胸部放射影像观察结果。作者设计了一个标注工具(labeler),它能够从放射报告文本中提取观察结果并使用不确定性标签捕捉报告中存在的不确定性。

图 1:CheXpert 任务旨在根据多视角胸部放射影像预测不同观察结果的概率。

CheXpert 任务要根据多视角胸部放射影像(见图 1)来预测 14 种不同观察结果的概率。作者尤其关注数据集中的不确定性标签,并研究了结合这些不确定性标签来训练模型的不同方法。然后在包含 200 项标记的验证集上评估了这些不确定性方法的性能,这些标注真值由 3 位放射科医生一致确定,他们用放射影像注释了该验证集。作者根据病理的临床意义和在数据集中的流行程度,在 5 个选定的观察结果上评估其方法,发现不同的不确定性方法能够用于不同的观察结果。

表 1:CheXpert 数据集包含 14 个标记的观察结果。作者报告了训练集中包含这些观察结果的研究数量。

论文:CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison

论文地址:https://arxiv.org/abs/1901.07031v1

摘要:大型的标记数据集使得深度学习方法在诸多医疗影像任务上获得了专家级的表现。我们要展示的 CheXpert 是一个大型数据集,它包含来自 65,240 个病人的 224,316 张胸部放射影像。我们设计了一个标注工具(labeler)来自动检测影像报告中的 14 种观察结果,并捕捉影像解释中固有的不确定性。我们研究了使用不确定性标签训练卷积神经网络的不同方法,该网络在给定可用正面和侧面放射影像的情况下输出这些观察结果的概率。在一个包含 200 项胸部放射影像研究的验证集上,我们发现不同的不确定性方法可以用于不同的病理,这些研究由 3 位经过认证的放射科医生手工注释。然后,我们在包含 500 项胸部放射影像研究(这些研究由 5 位经过认证的放射科医生一致注释)的测试集上评估我们的最佳模型,并将模型的表现与另外 3 位放射科医生检测 5 种选定病理的表现进行比较。对于心脏肥大、水肿和胸腔积液三种疾病,ROC 和 PR 模型曲线位于所有 3 个放射科医师操作点之上。我们将该数据集作为评估胸部放射影像解释模型性能的标准基准公开发布。

该数据集可从以下地址免费获取:

https://stanfordmlgroup.github.io/competitions/chexpert

Facebook 提出新型视觉定位数据集 BISON

为系统提供关联语言内容和视觉内容的能力是计算机视觉领域的一大成就。图像描述生成和检索等任务旨在测试这种能力,但是复杂的评估指标也同时带来了一些其它能力和偏差。Facebook 近日发表论文,介绍了一种替代性视觉定位系统评估任务 Binary Image SelectiON (BISON) :给出图像描述,让系统从一对语义相似的图像中选择与图像描述最匹配的图。系统在 BISON 任务上的准确率不仅可解释,还能够衡量系统关联图像描述中精细文本内容与图像中视觉内容的能力。Facebook 研究者收集了 BISON 数据集,它补充了 COCO Captions 数据集。研究者还使用 BISON 数据集对图像描述生成和基于描述的图像检索系统进行辅助评估。图像描述生成的度量指标表明视觉定位系统已经优于人类,但 BISON 表明这些系统与人类表现还有距离。

图 2:COCO-BISON 数据集收集过程图示:研究者使用 COCO captions 数据集进行 BISON 数据集收集工作。首先利用描述相似度寻找相似图像,然后标注者选择对图像对中其中一个图像的描述,最后研究者让多个标注者分别基于描述选择正确的图像,从而验证标注的准确性。

该研究由美国南加州大学博士 Hexiang Hu 和 Facebook 研究者合作完成。目前已开源了验证数据和评估代码。

  • 验证数据:https://raw.githubusercontent.com/facebookresearch/binary-image-selection/master/annotations/bison_annotations.cocoval2014.json

  • 评估代码:https://github.com/facebookresearch/binary-image-selection

  • 论文地址:https://arxiv.org/abs/1901.06595

理论吴恩达Facebook谷歌数据集
2
相关数据
吴恩达人物

斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。

所属机构
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像检索技术

图像检索系统是用于从大型数字图像数据库浏览、搜索和检索图像的计算机系统。 大多数传统和常见的图像检索方法利用向图像添加诸如字幕、关键字或描述之类的元数据的一些方法,以便可以对注释词执行检索。 手动图像注释耗时,费力且昂贵; 为了解决这个问题,人们已经对自动图像标注进行了大量研究。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~