新论文提出EMNIST:扩展到手写字母的MNIST数据集

论文标题:EMNIST: an extension of MNIST to handwritten letters

blob.png

MNIST 数据集已经成为了学习、分类和计算机视觉系统的一个标准基准。其得到广泛采用的部分原因是其任务在本质上是可理解的且直观的,而且其大小和存储要求相对较小,数据本身也易于获取和使用。MNIST 数据库源自一个更大型的数据集 NIST Special Database 19,其中包含了数字、大写和小写字母的手写字母。本论文介绍了一个全 NIST 数据集的变体,我们将其称之为 Extended MNISTEMNIST),其遵循了与创建 MNIST 数据集时所用的相同的转换范式。结果得到了一系列的数据集,它们构成更具挑战性的涉及到字母和数字的分类任务,而且它们和原来的 MNIST 任务具有相同的图像结构和参数,允许和所有已有的分类器和系统直接兼容。通过在转换过的 NIST 数字和 MNIST 数字上的分类结果的比较,本论文在给出了基准结果的同时也对该转换过程进行了验证。

blob.png 

1 :使用原来的训练和测试分割得到的 NIST Special Database 19 的可用训练和测试样本的数量

blob.png 

2EMNIST 数据集的结构和组织

blob.png 

1:用于转换 NIST 数据集的转换过程示意图。其原始图像是 128×128 像素的二值图像,如(a)所示。在 (b) 中,图像被应用了一个 σ=1 的高斯滤波而软化了边缘。原图中的字符没有充满整张图像,在 (c) 中,实际的字符区域被提取了出来。在 (d) 中,字符被放置在了方形图像的中心,但字符的宽高比得到了保留。为了变成方形图像,图片边界填充了 2 个像素,匹配了围绕 MNIST 数据集中所有数字的清晰边界。最后,该图像被双三次插值(bi-cubic interpolation)算法下采样到了 28×28 像素。然后将其强度值的范围扩展到 [0, 255],得到了 28×28 像素的灰度图像,如(e)所示。

3333.png 

2EMNIST 数据集组成的可视化。给出了 EMNIST 数据集中的类别细分、结构和多种数据集的分割。其中的数据集包含了数字、手写字母或两者的组合。每个类别数据集中样本的数量都已经给出并突出非平衡数据集中的样本数量的大的变化。图中还给出了每个类别的训练和测试的分割,分别用实线框和阴影部分表示。在包含了融合类的数据集中,竖直箭头表示合并了小写字母的类。

理论深度学习论文计算机视觉理论
暂无评论
暂无评论~