陈萍作者

Papers With Code新增数据集检索功能:3000+经典数据集,具备多种过滤功能

Papers with Code 现在已经集成了 3044 个机器学习数据集,点点鼠标就能检索需要的数据集。

机器学习中,数据集占据了重要的一部分。研究人员除了需要开发先进的算法外,其实数据集的建立才是最基础也是最重要的部分。在过往的研究中,机器学习从业者也建立了许多可用的数据集。


在哪里可以找到比较好的数据集呢?

近日,查找论文对应开源代码的神器 Papers with Code 官网发布,Datasets 已经实现了 3044 个机器学习数据集的汇总,并且按照不同的类型进行归类,还具有过滤功能,值得一看。


我们现在正在索引 3000 + 来自机器学习的数据集。使用者可以按照任务分类和模式进行数据集查找,还可以按照时间比较数据集的使用情况、浏览基准等要素进行查找。

网站地址:https://www.paperswithcode.com/datasets

覆盖范围众多的数据集

在这 3044 个机器学习数据集里,不乏我们常用的经典数据集,例如,ImageNet、COCO、CIFAR-10、MNIST 等。


快速检索

如果你想搜索指定的数据集,该网站也具备检索功能,例如从事计算机视觉的研究者,比较关心的是人脸数据集,这时就可以在搜索框敲入要搜索的内容,如果数据集的全拼你没有记住,也不用担心,只需键入几个字母,搜索栏就会出现相应的数据集。

键入 cele,检索区域会出现相关的数据集

对数据集进行归纳整理

该 Datasets 对数据集进行了归纳整理,包含图像类、文本类、视频类等多个类别。以文本数据集为例,点击「Texts」选项,右侧页面会显示和文本相关的数据集,从检索结果可以看出,符合要求的有 828 个数据集。


按任务进行数据集过滤

机器学习研究分为不同的任务,我们都了解做自然语言推理任务的数据集不能用来进行机器翻译。怎样才能找到适合的数据集呢?Papers with Code 的 Datasets 具有该功能,该研究对 3044 个数据集根据任务进行了分类。包括问答、语言模型视觉问答等。

以左侧栏红框中标出的「Named Entity Recognition」为例,点击「Named Entity Recognition」,右侧页面检索出来有 28 个相关数据集,但它的检索条件是「Named Entity Recognition」以及「Texts」,如绿色框所示。如果你不想要这个检索条件,可以在设置「Texts」条件功能区内,将该条件取消,取消方式是点击「clear」。


根据语言进行过滤

此外,使用者还可以根据语言类型进行数据集的过滤,包括中文、英文等,根据自己的需求选择合适的数据集。以中文为例,检索出 88 个数据集,在检索结果里,除了显示符合条件的数据集外,还显示了检索条件,如图中的红框所示「Chinese」,如果检索条件有多个,该条目会显示多个检索条件。


理论Papers With Code数据集
2
相关数据
视觉问答技术

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~